TRIBE v2 (Meta) 全腦神經活動資訊

TRIBE v2（Trimodal Brain Encoder）是一個多模態基礎模型，用於輸入一段影片、音訊或文字，然後輸出一個對應的「全腦神經活動圖」（約 7 萬個體素的 fMRI‑style 活動預測）。
它在 Algonauts 2025 獲獎架構上進一步提升，準確度約是上一代 2–3 倍，空間解析度提高約 70 倍，並支援跨受試者、跨語言、跨任務的 zero‑shot 預測。

可以當成一個「神經科學可視化工具」，用來研究。例如內容設計（影片、廣告、UI）如何觸發大腦特定區域（視覺皮層、語言區等）。又或者多模態 embedding 是否真的對齊人類大腦的處理路徑。

若你在做 RAG、多模態搜尋或 Brain‑AI 類實驗，可以拿這個 demo 來：比較不同 prompt／多模態輸入對「腦激活圖」的差異（例如：同一段文字用不同語氣、圖片風格重製）。