Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1

影片提供兩個連結:

主要內容總結

Vuk Rosić 在影片中分享一個來自匿名來源的「瘋狂想法」:在數位世界中,一切資料皆以位元組為基礎,因此應直接將位元組輸入 AI 模型,而非傳統的 tokenization(標記化)。這能幫助融合多模態資料,並透過拓撲分析學習位元組的模式、位置和結構。講者承認自己對代數拓撲不熟,因此使用 GPT-5 和 Claude Opus 等 AI 工具來學習並生成代碼,共同探索概念。

影片的核心是使用持久同調來分析位元組序列,將位元組視為高維空間中的點(dots),並觀察它們在不同尺度下的連接模式(如叢集、循環、空洞)。這能揭示隱藏結構,例如禁止的位元組組合(forbidden combinations),進而改善 LLM 和視覺語言模型的設計,讓 AI 直接生成位元組、更具表達力和理解力。

講者提到先前一系列影片(4 部,見播放清單)嘗試用位元組取代 token,但方式較「天真」(naive),如根據預測難度分組位元組。現在則引入拓撲分析,視為升級版。影片結束時預告第二集將繼續探索。

關鍵概念詳細解釋

影片詳細介紹以下核心概念,使用比喻和步驟解說,讓非專家也能跟上。以下分點說明:

  1. 直接輸入原始位元組到 LLM
    • 傳統 LLM 使用 tokenization 將文字轉為 token,但這可能丟失細微結構。講者主張直接輸入位元組(bytes,0-255 值),因為它是數位世界的「最低共同分母」(lowest common denominator)。
    • 優點:能統一處理文字、影像、影片等模態;學習位元組的位置模式(如文字中某些組合不可能出現);設計更好的 AI 模型,直接生成位元組而無需轉換。
    • 例如,將文字分割成 4 位元組群組,每群視為 4 維空間中的一點(coordinates 從 0-255)。
  2. 代數拓撲與持久同調(Algebraic Topology & Persistent Homology)
    • 比喻:想像位元組序列如夜空中的星星(constellation)。持久同調就像系統性地連接附近星星,觀察在不同距離(scales)下形成的模式(如三角形、循環),並追蹤哪些模式「持續」(persist)。
    • 步驟
      • 將位元組轉為高維空間中的點。
      • 圍繞每個點成長球體(spheres),觀察何時重疊(overlap)、形成循環(loops)、叢集(clusters)或空洞(voids)。
      • 追蹤特徵的「出生」(birth)和「死亡」(death):出生時特徵出現,死亡時被合併或填補。持續性(persistence)= 死亡 – 出生,衡量模式強度。
    • 維度解釋
      • 維度 0(Connected Components):叢集或分離群組(如星星群)。例如,起始時每個點獨立,球體成長後合併成群。
      • 維度 1(Loops):循環或圈(如三角形連接形成孔洞)。代表循環模式,如文字中重複詞彙(如 “the”)創造多條路徑。
      • 維度 2(Voids):高維空洞(如中空球體)。代表「禁止區域」,如某些位元組組合從未出現(forbidden combinations),如文字中無空格的標點。
    • 洞察:這些拓撲特徵揭示傳統序列模型(如線性模型)忽略的結構。隨機資料產生多但短暫的特徵(noise),結構化資料(如文字)產生少但持久的特徵,代表有意義模式。
  3. 嵌入方法(Embedding Methods)
    • 將位元組序列轉為幾何空間的三種方式:
      • 滑動視窗嵌入(Sliding Window):重疊視窗(如位元組 1-4、2-5),適合偵測局部模式。
      • 延遲嵌入(Delay Embedding):每隔幾位取樣(如 i, i+2, i+4),適合偵測週期模式。
      • 頻率嵌入(Frequency Embedding):計算局部鄰域的位元組頻率,轉為 32 維向量,適合統計模式。
    • 計算點間距離(歐幾里德距離、漢明距離等),用於拓撲分析。
  4. 過濾與持續同調計算
    • 建構過濾(filtration):逐漸增加連接距離,觀察形狀變化。
    • 使用 Claude Opus 生成代碼,分析距離矩陣並計算持續同調。

影片中的例子與分析

講者使用多種資料類型示範,計算傳統統計(如長度、唯一位元組、熵、自我相關性)後,再應用拓撲分析。以下表格總結:

資料類型描述傳統統計拓撲洞察
文字樣本 (“the quick brown fox jumps over a lazy dog” 重複三次)真實世界文字,長度 135 位元組。唯一位元組:29/256;熵:4.44 位元(中度隨機);自我相關性:0.26(低重複)。維度 0:44 特徵(叢集),最大持續性 69.325(強群組);維度 1:11 循環(來自重複如 “the”);維度 2:少數空洞(禁止組合,如無空格標點)。揭示語法結構。
重複模式 (如 65,66,67,68 重複)壓縮或結構化資料。高自我相關性(0.98)。產生循環(loops),持續特徵強(預期結構)。
隨機位元組完全隨機,代表噪音。高熵;低自我相關性(0.20)。維度 0:121 特徵,最大持續性 117;維度 1:多循環但短暫;維度 2:14 空洞(隨機噪音,非有意義)。
帶頭部資料 (模擬 JPEG 頭部 + 內容)檔案格式模擬。中度結構。區分頭部與內容,揭示混合模式。
漸變模式 (平滑正弦波)連續轉換。平滑轉換。持續拓撲特徵,代表連續結構。

分析顯示,結構化資料(如文字)有少但持久的特徵,隨機資料有許多短暫特徵。空洞代表禁止組合(如文字中無某些詞彙配對),可用於預測規則,提升 AI 理解。

結論與啟發

這部影片是 AI 創新探討的入門,強調拓撲分析能揭示位元組的隱藏形狀,潛在改變 LLM 設計(如更有效的多模態融合)。講者強調 AI 工具(如 Claude Opus)的幫助,讓初學者也能參與。適合對 AI、拓撲資料分析感興趣的觀眾觀看,建議搭配 Colab 運行代碼以加深理解。預告第二集將繼續討論應用到 LLM 的細節。

Categories: 編程, 教學, , 深度學習, Embedding