Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」，僅有頂尖 0.1% 的研究者知曉：直接將原始位元組（raw bytes）輸入大型語言模型（LLMs），並使用代數拓撲（algebraic topology）分析，透過持久同調（persistent homology）揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料（如文字、影像、影片）的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1

Watch this video on YouTube

影片提供兩個連結：

Google Colab 筆記本：https://colab.research.google.com/drive/1kJwI2edPAJZecpGVoiO0PUp8wfO_ZI0B?usp=sharing（用於實際運行代碼）。
GitHub 儲存庫：https://github.com/vukrosic/open-source-ai-2026（關於從零建構 Code LLM，如 GPT-5、DeepSeek、Qwen3、Llama4）。

主要內容總結

Vuk Rosić 在影片中分享一個來自匿名來源的「瘋狂想法」：在數位世界中，一切資料皆以位元組為基礎，因此應直接將位元組輸入 AI 模型，而非傳統的 tokenization（標記化）。這能幫助融合多模態資料，並透過拓撲分析學習位元組的模式、位置和結構。講者承認自己對代數拓撲不熟，因此使用 GPT-5 和 Claude Opus 等 AI 工具來學習並生成代碼，共同探索概念。

影片的核心是使用持久同調來分析位元組序列，將位元組視為高維空間中的點（dots），並觀察它們在不同尺度下的連接模式（如叢集、循環、空洞）。這能揭示隱藏結構，例如禁止的位元組組合（forbidden combinations），進而改善 LLM 和視覺語言模型的設計，讓 AI 直接生成位元組、更具表達力和理解力。

講者提到先前一系列影片（4 部，見播放清單）嘗試用位元組取代 token，但方式較「天真」（naive），如根據預測難度分組位元組。現在則引入拓撲分析，視為升級版。影片結束時預告第二集將繼續探索。

關鍵概念詳細解釋

影片詳細介紹以下核心概念，使用比喻和步驟解說，讓非專家也能跟上。以下分點說明：

直接輸入原始位元組到 LLM：
- 傳統 LLM 使用 tokenization 將文字轉為 token，但這可能丟失細微結構。講者主張直接輸入位元組（bytes，0-255 值），因為它是數位世界的「最低共同分母」（lowest common denominator）。
- 優點：能統一處理文字、影像、影片等模態；學習位元組的位置模式（如文字中某些組合不可能出現）；設計更好的 AI 模型，直接生成位元組而無需轉換。
- 例如，將文字分割成 4 位元組群組，每群視為 4 維空間中的一點（coordinates 從 0-255）。
代數拓撲與持久同調（Algebraic Topology & Persistent Homology）：
- 比喻：想像位元組序列如夜空中的星星（constellation）。持久同調就像系統性地連接附近星星，觀察在不同距離（scales）下形成的模式（如三角形、循環），並追蹤哪些模式「持續」（persist）。
- 步驟：
  - 將位元組轉為高維空間中的點。
  - 圍繞每個點成長球體（spheres），觀察何時重疊（overlap）、形成循環（loops）、叢集（clusters）或空洞（voids）。
  - 追蹤特徵的「出生」（birth）和「死亡」（death）：出生時特徵出現，死亡時被合併或填補。持續性（persistence）= 死亡 – 出生，衡量模式強度。
- 維度解釋：
  - 維度 0（Connected Components）：叢集或分離群組（如星星群）。例如，起始時每個點獨立，球體成長後合併成群。
  - 維度 1（Loops）：循環或圈（如三角形連接形成孔洞）。代表循環模式，如文字中重複詞彙（如 “the”）創造多條路徑。
  - 維度 2（Voids）：高維空洞（如中空球體）。代表「禁止區域」，如某些位元組組合從未出現（forbidden combinations），如文字中無空格的標點。
- 洞察：這些拓撲特徵揭示傳統序列模型（如線性模型）忽略的結構。隨機資料產生多但短暫的特徵（noise），結構化資料（如文字）產生少但持久的特徵，代表有意義模式。
嵌入方法（Embedding Methods）：
- 將位元組序列轉為幾何空間的三種方式：
  - 滑動視窗嵌入（Sliding Window）：重疊視窗（如位元組 1-4、2-5），適合偵測局部模式。
  - 延遲嵌入（Delay Embedding）：每隔幾位取樣（如 i, i+2, i+4），適合偵測週期模式。
  - 頻率嵌入（Frequency Embedding）：計算局部鄰域的位元組頻率，轉為 32 維向量，適合統計模式。
- 計算點間距離（歐幾里德距離、漢明距離等），用於拓撲分析。
過濾與持續同調計算：
- 建構過濾（filtration）：逐漸增加連接距離，觀察形狀變化。
- 使用 Claude Opus 生成代碼，分析距離矩陣並計算持續同調。

影片中的例子與分析

講者使用多種資料類型示範，計算傳統統計（如長度、唯一位元組、熵、自我相關性）後，再應用拓撲分析。以下表格總結：

資料類型	描述	傳統統計	拓撲洞察
文字樣本 (“the quick brown fox jumps over a lazy dog” 重複三次)	真實世界文字，長度 135 位元組。	唯一位元組：29/256；熵：4.44 位元（中度隨機）；自我相關性：0.26（低重複）。	維度 0：44 特徵（叢集），最大持續性 69.325（強群組）；維度 1：11 循環（來自重複如 “the”）；維度 2：少數空洞（禁止組合，如無空格標點）。揭示語法結構。
重複模式 (如 65,66,67,68 重複)	壓縮或結構化資料。	高自我相關性（0.98）。	產生循環（loops），持續特徵強（預期結構）。
隨機位元組	完全隨機，代表噪音。	高熵；低自我相關性（0.20）。	維度 0：121 特徵，最大持續性 117；維度 1：多循環但短暫；維度 2：14 空洞（隨機噪音，非有意義）。
帶頭部資料 (模擬 JPEG 頭部 + 內容)	檔案格式模擬。	中度結構。	區分頭部與內容，揭示混合模式。
漸變模式 (平滑正弦波)	連續轉換。	平滑轉換。	持續拓撲特徵，代表連續結構。

分析顯示，結構化資料（如文字）有少但持久的特徵，隨機資料有許多短暫特徵。空洞代表禁止組合（如文字中無某些詞彙配對），可用於預測規則，提升 AI 理解。

結論與啟發

這部影片是 AI 創新探討的入門，強調拓撲分析能揭示位元組的隱藏形狀，潛在改變 LLM 設計（如更有效的多模態融合）。講者強調 AI 工具（如 Claude Opus）的幫助，讓初學者也能參與。適合對 AI、拓撲資料分析感興趣的觀眾觀看，建議搭配 Colab 運行代碼以加深理解。預告第二集將繼續討論應用到 LLM 的細節。