從腦部訊號到影像問答:Brain-IT-VQA 框架解碼大腦視覺理解

Weizmann Institute of Science

Brain-IT-VQA 是一套從 fMRI(功能性磁共振造影)腦部訊號出發,自動回答「圖片中看到什麼」這類問題的框架。研究團隊建基於 Brain Interaction Transformer(Brain-IT),把腦部活動轉換成語言條件表徵,再交由預訓練的視覺語言模型生成答案,全程毋須先把腦部訊號重建成影像。

這項工作解決了一個長期難題:過去從 fMRI 解讀視覺內容的研究,大多只能產生粗略描述,而且準確度有限;更少有模型被用來分析大腦內部如何處理視覺資訊。Brain-IT-VQA 在多項基準上明顯超越以往的 fMRI 影像描述與 VQA(Visual Question Answering,視覺問答)方法,同時提供拆解視覺理解層次的工具。

團隊同步發佈 NSD-VQA 數據集,以 Natural Scenes Dataset(NSD)為基礎,平均每張影像提供約 20 題,涵蓋 20 個受控問題類別。這些類別覆蓋物件辨識、空間關係、語意判斷等不同層次,方便研究者細緻評估模型在各種視覺與語意任務上的表現。

透過「解碼貢獻分析」,框架可揭示不同腦區對各類問題的貢獻分布,協助神經科學家理解大腦處理視覺資訊的空間分佈特徵。頁面亦設有互動示範,讓訪客在從未參與訓練的 NSD 測試影像上,瀏覽模型生成的描述與問答結果。

重點摘要

  • 直接從 fMRI 解碼語言:把腦部活動轉成語言條件表徵,由預訓練視覺語言模型生成描述與答案,毋須影像重建步驟。
  • 公開 NSD-VQA 數據集:每張影像平均 20 題、20 個受控類別,提供更細緻的 VQA 評估基準。
  • 顯著超越先前方法:在 fMRI 影像描述與視覺問答任務上,明顯優於過往同類模型。
  • 支援腦區貢獻分析:可拆解不同腦區在各類視覺問題中的參與程度,輔助神經科學研究。
  • 附設互動示範:容許瀏覽者在 NSD 測試影像上查看模型的預測輸出。

這個項目最適合從事腦部解碼、視覺語言模型、神經科學與認知計算的研究人員與研究生。對希望了解 AI 與人類視覺如何結合的工程師而言,NSD-VQA 與開源代碼亦提供了一個具挑戰性的新基準。

研究單位
Weizmann Institute of Science (魏茨曼科學研究所)在以色列的雷霍沃特(Rehovot),大約在特拉維夫以南。

魏茨曼科學研究所一般被視為世界頂尖的基礎研究機構之一;在你這次查到的資料裡,它在萊頓排名中被列到全球前十,2021 年為第 8 名。

它的重點研究領域主要集中在 生物學/生物化學、化學、物理、數學與電腦科學,也有跨學科方向。

項目: https://mcosarinsky.github.io/brain-it-vqa/

Categories: Medical醫學, Dataset 數據集


JetBrains 推出 Mellum 2:專為即時推論而生的輕量語言模型

Og image

Mellum 2 是 JetBrains 推出的一系列輕量級語言模型,設計目標是讓 AI 推論過程更快、更省資源。相較於一般大型語言模型龐雜的體積,Mellum 走的是精簡路線,能在保持表現的同時,大幅降低回應時間,這對於需要即時互動的應用來說相當關鍵。

Mellum 2 是開放權重的 120 億參數混合專家 (MoE) 語言模型,每個詞元有 25 億個活躍參數。

這項目主要解決一個核心問題:如何在不犧牲太多準確度的前提下,讓語言模型的回應速度快到可以整合進日常工具中。例如 IDE(Integrated Development Environment,整合式開發環境)內的自動補全、程式碼提示等功能,往往需要模型在幾十毫秒內就給出結果,傳統大型模型很難做到這一點。

Mellum 2 的主要創新在於針對低延遲推論(ultra-low-latency inference)進行了架構與訓練流程的最佳化,讓模型在邊緣裝置或本地端環境也能順暢運行。JetBrains 將其定位為「real-world AI workloads」,意思是它不是只為研究而生的模型,而是真正要部署到生產環境的工具。

這套模型最適合的場景包括:需要即時回應的開發工具、需要本地端 AI 能力的企業應用,以及對成本敏感的批次處理任務。開發者可以透過 JetBrains 提供的資源將 Mellum 整合到自己的系統中,而無需依賴雲端的大型模型服務。

以下是 Mellum 2 的重點摘要:

  • 輕量架構:模型體積小,適合在本地端或資源有限的環境運行。
  • 低延遲推論:針對即時回應需求設計,回應速度遠快於一般大型語言模型。
  • 生產導向:專為實際部署與整合而打造,非純研究用途。
  • JetBrains 背書:由 IDE 領域知名團隊推出,與開發者工具生態有良好銜接。

整體而言,Mellum 2 代表了語言模型走向「小而快」的趨勢,讓更多場景能以合理成本享受到 AI 帶來的便利。

項目: https://www.jetbrains.com/mellum/

Categories: 開源, 模型

TaskMem:教多模態智能體學會選擇性記憶

Og image

多模態智能體在持續觀察環境時,會接收海量且不斷累積的視覺與語言資訊。若把所有內容都存進長期記憶,既不實際也容易雜訊過多。Task-Focused Memorization for Multimodal Agents 這份研究,把焦點放在一個根本問題:智能體到底應該記住什麼?

來自 ByteDance Seed 與復旦大學的作者群提出名為 TaskMem(Task-focused Memorization Policy Learning) 的框架,把記憶生成視為一項可學習的策略。系統採用兩階段訓練:第一階段先學習怎樣記得準確,第二階段則在部署後,根據近期遇到的任務調整一個 adapter,使基礎多模態大型語言模型(MLLM)偏向記錄與任務相關的內容。整個過程以強化學習驅動,獎勵訊號來自真實任務的表現。

為了評估記憶品質,研究團隊將 VideoMME、EgoLife 與 EgoTempo 改造成串流基準,模擬智能體邊觀察邊回答的場景,且回答時只能依賴記憶,不能翻看原始影片。基於 Qwen3-VL-30B-A3B,TaskMem 在三個基準的 VQA 準確率分別提升 6.3%、7.0% 與 5.3%,並在多項指標上超越 Gemini-2.5-Pro、GPT-5.2 等大型模型。

這項工作對從事多模態智能體、機器人記錄系統或長期對話助手開發的研究者特別有參考價值,因為它把「該記什麼」變成可優化的決策,而非寫死規則。對於關注世界模型與持續學習(continual learning)的團隊,TaskMem 亦提供了一個結合任務回饋與記憶策略的可行路徑。

重點摘要:

  • 核心問題:多模態智能體面對資訊洪流,需要學會選擇性記憶。
  • 方法:以強化學習訓練記憶策略,分為基礎保真度與任務相關性兩階段。
  • 評估方式:將三個影片基準改造成串流設定,僅以記憶回答問題。
  • 成效:在 VideoMME、EgoLife、EgoTempo 上 VQA 準確率提升 5.3% 至 7.0%。
  • 適用對象:研究多模態智能體、機器人記憶與持續學習的開發者與學者。

項目: https://taskmem.github.io/

Categories: 開源, 字節跳動, Agentic, OpenClaw, 框架

GUI 智能體總是自己犯錯?RoTS 用樹狀軌跡合成教它如何自救

Repository image for AlibabaResearch/RoTS

近年 GUI agents(圖形介面智能體)雖然進步神速,但只要自己點錯一個按鈕、誤判畫面狀態,往往就會卡住無法完成任務。這項由阿里雲團隊撰寫、入選 ICML 2026 Spotlight 的工作,正是針對這個「自己造成的錯誤」痛點,從評估與訓練數據兩端同時入手。

他們先推出了 GUI-RobustEval 基準,收錄 1,216 個可執行測試案例,涵蓋 11 種錯誤類型與 4 種錯誤深度,讓開發者能系統化量測智能體的「自救」能力。接著提出 RoTS 框架,以樹狀結構(tree-based)在線生成 80 萬條訓練軌跡,主動探索不同錯誤模式並合成對應的恢復步驟。

基於這批數據微調而成的 RoTS-7B 與 RoTS-32B,在 OSWorld 上於開源權重模型中取得領先表現,其中 RoTS-32B 達到 47.4% 成功率與 33.8% All-Pass@4 分數。研究團隊指出,這些分數顯示長時程錯誤恢復能力,同時提升了整體任務表現。

對從事電腦使用代理(Computer-use agents, CUAs)研究、開源 VLM 微調,或關注 GUI 自動化在真實環境穩定性的團隊而言,這是一份值得追蹤的成果。論文與數據集已公開,但程式碼與評估工具仍在整理中,有興趣的人可先閱讀論文並關注後續釋出。

重點摘要:

  • 解決 GUI agents 因自身策略錯誤而無法恢復的部署瓶頸
  • GUI-RobustEval 提供 1,216 個測試案例,覆蓋 11 種錯誤類型
  • RoTS 以樹狀在線合成框架產出 80 萬條高品質訓練軌跡
  • RoTS-7B 與 RoTS-32B 於 OSWorld 開源模型中表現領先
  • 程式碼與數據集仍在整理階段,論文已於 arXiv 公開

GitHub: https://github.com/AlibabaResearch/RoTS

Paper: https://arxiv.org/pdf/2605.29447

Categories: 開源, Agentic, OpenClaw, 框架

GGT-100K:用十萬對真實影像 拓寬圖像修復的泛化邊界

GGT-100K logo

過去訓練圖像修復模型時,開發者往往受限於合成數據與真實場景之間的差距;模型在實驗室數據集表現亮眼,遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生,由香港理工大學 OPPO 研究院共同推出,主打從 MFM(Multimodal Foundation Models)直接生成十萬對 LQ-HQ 配對資料,覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth(GT)」,再利用 MFM 推演對應的低品質版本,省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint,研究者只需在自有的修復模型上加掛 LoRA 或重新微調,就能測試跨域泛化效果;對工程團隊而言,等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

  • 提供十萬對從 MFM 生成的 LQ-HQ 影像配對,涵蓋多元真實退化情境。
  • 內建 baseline 訓練與推論程式碼,支援主流修復模型微調。
  • 透過 Generative GT 策略,免除傳統人工蒐集配對的高昂成本。
  • 數據集可從 Hugging Face 或百度雲下載,附完整 Construction Process 說明。
  • 實驗結果顯示,模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現,作者在多個 SOTA(State-of-the-Art)MFM 上進行了修復評估,結果顯示加入 GGT-100K 訓練後,模型對未見過的真實退化樣本有更佳的適應力;具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發,或是想評估自家模型在真實世界表現的團隊,這份開源資源值得花時間一試。

GitHub: https://github.com/PolyU-VCLab/GGT-100K

項目: https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

無需外部資料的自博弈訓練:SCOPE 讓模型自己出題自己答

Og image

現有的語言模型自博弈(self-play)訓練方法,大多只能處理有明確對錯的題目,例如數學運算。蘇格蘭愛丁堡大學等機構的研究團隊提出了一個名為 SCOPE(Self-Play via Co-Evolving Policies)的框架,把自博弈拓展到沒有標準答案的開放式任務,例如需要整合多段資料才能完成的問答。研究團隊來自 University of Edinburgh、Imperial College London 與 Miniml.AI。

SCOPE 的核心設計是讓同一個基礎模型分身成三個角色:Challenger(出題者)、Solver(答題者)以及 Judge(評判者)。Challenger 讀取一份文件,透過多輪檢索寫出難度貼近答題者極限的題目;Solver 則要靠自己搜尋資料、整合證據後作答;Judge 凍結在初始狀態,根據同一份文件擬定評分準則,並為每項標準給出嚴格的二元評分。三者完全不依賴人工編寫的題目,也不需要體型龐大的前沿模型做監督。

這個框架解決了一個關鍵痛點:開放式任務沒有固定答案,傳統強化學習難以給出可靠的反饋。SCOPE 透過「文件接地」(document grounding)製造資訊不對稱——Challenger 和 Judge 看得到原文,Solver 看不到,迫使答題者必須主動檢索。同時,題目難度被控制在答題者得分約 50% 的位置,因為這個點的反饋變化最大,最有利於學習;得分低於 0.2 或高於 0.8 的題目會被過濾掉,避免太簡單或太難的內容浪費訓練資源。研究亦加入長度懲罰與品質門檻,防止模型以灌水或抄原文的方式「刷分」。

在 Qwen2.5-7B 等 7–8B 規模的模型上,SCOPE 在 8 個開放式基準測試中最高取得 +10.4 分的提升,整體增幅介於 +5.4 至 +10.4 分,並在 7 個傳統問答基準上同樣有穩定進步,過程中使用了 0 條人工策劃的提示。對於想以有限預算微調開源模型、又要兼顧開放式生成品質的開發者與研究團隊,這個方法提供了一條不依賴外部數據集的路徑。

項目: https://edinburghnlp.github.io/scope/

Categories: 開源, 模型訓練, 框架

dMoE:讓擴散語言模型告別專家暴漲

Overview

擴散式大型語言模型(dLLMs)近年被視為自迴歸模型的另一條路線,本身就支援平行解碼,但一旦搭配 MoE(Mixture-of-Experts)架構來放大模型容量,卻會撞上一個尷尬的牆:dLLM 在同一個前向傳遞中會同時處理多個互相關聯的 token,而傳統 MoE 卻是針對每個 token 各自挑選專家,導致一次推論要啟動的獨立專家數量暴增,記憶體頻寬很快就成為瓶頸。

dMoE 的核心構想相當直觀:與其在每個 token 層級各自決定要用哪個專家,不如在「區塊」層級做統一決策。它會先把同一個區塊內各 token 的專家分佈聚合成一份,再以這個區塊級的分佈去引導整個區塊的路由。這個改動讓啟動的獨立專家數量從原本的 69.5 個左右壓到 14.6 個,記憶體用量減少約 76% 至 80%,端到端延遲也獲得 1.14 倍到 1.66 倍的加速。

在效能維持方面,dMoE 在多項推理與通用基準測試中保留了原模型約 99.11% 的表現。以 MATH500 為例,成績只從 72.0% 微跌到 71.0%,啟動專家數量卻從 70 個降到 14.1 個,是相當划算的交換。

dMoE 直接以 LLaDA-2.0-mini 為基礎建構,沒有更動主架構,因此可順利套用到其他遮罩式 dLLMs,目前亦已在 Hugging Face 上釋出名為 dMoE-16B 的模型權重。對想嘗試 dLLM 卻受限於顯卡的研究者與工程師來說,這個項目是低門檻的延伸切入點;對做模型效率優化的團隊,區塊級路由的設計也提供了有參考價值的方向。

重點摘要

  • 區塊級專家路由:在區塊而非 token 層級做 MoE 決策,大幅壓低啟動專家數量。
  • 記憶體與頻寬壓力減輕:獨立專家從約 69.5 個降到 14.6 個,記憶體用量減少 76%–80%。
  • 速度明顯提升:端到端推論延遲獲得 1.14× 至 1.66× 加速。
  • 表現幾乎不打折:在多項基準測試中保留約 99.11% 原始效能。
  • 隨插即用設計:以 LLaDA-2.0-mini 為基礎,不改動架構即可套用至其他遮罩式 dLLMs。

GitHub: https://github.com/fscdc/dMoE

項目: https://fscdc.github.io/dMoE/

Categories: 開源, 模型訓練, 框架

VLM3:毋需設計專屬模型架構而達專家級 3D 模型的效果

teaser

過往要讓AI理解3D場景,往往需要設計專屬的模型架構、複雜的損失函數,還要加上各種資料增強手段。Meta與Princeton合作提出的VLM³(Vision Language Models Are Native 3D Learners)卻反其道而行,主張標準VLM天生就是3D學習者。

有效的 3D 學習主要靠三點 —— 焦距統一(focal length unification)、文字式像素參照(text‑based pixel reference)、以及資料混合與擴展,而不是新架構、大模型、heavy augmentation 或複雜 regression loss。

VLM³會先把輸入影像縮放至相同焦距(以1000像素為例),解決相機內參歧義;需要指涉物件或像素時,就以文字配合標準化座標範圍(例如[0, 2000)或[0, 1000))來表達,整個過程不需更動架構或加額外編碼器,僅用標準的文本監督微調(SFT)訓練。

在效能上,VLM³於多個3D基準上繳出亮眼成績:在物件級3D理解上超越SpatialRGPT;於度量深度估計上比肩UnidepthV2與Moge-2,把DepthLM的準確度由0.84提升至0.9;在像素對應上勝過DKM與RoMa;相機姿態估計方面則與DepthAnything3持平並超越VGGT。

這套方法適合關注3D視覺的開發者與研究團隊,特別是希望以單一通用模型涵蓋深度、對應、姿態與物件理解等任務的人。對於想從規模化資料入手,而非投入大量工程設計特定模型的場景,VLM³提供了一條相當務實的路徑。模型目前尚未公開,讀者可先留意論文及官方項目頁面的後續更新。

重點摘要:

  • 焦距統一:把輸入影像縮放至同一焦距,免去相機內參歧義。
  • 文本式像素參考:以標準化座標文字指涉像素,不需加標記或新架構。
  • 資料規模化勝過複雜設計:證明擴展資料與標準SFT已足夠,不需任務專屬模型。
  • 多項指標比肩專家模型:深度、像素對應、相機姿態等任務達到頂尖水準。
  • 統一輸出域:以文字作為統一介面,讓通用模型同時處理多樣3D任務。

GitHub: https://github.com/facebookresearch/VLM3

Paper: https://arxiv.org/pdf/2605.30561

Categories: 開源, 3D, 模型訓練, Meta, 框架

OpenSkillEval:專門審核 LLM 智能體技能生態的測試框架

OpenSkillEval — automatically auditing the open skill ecosystem for LLM agents

市面上的 LLM 智能體(LLM agents)排行榜大多只看模型本身的強弱,但 OpenSkillEval 卻把焦點放在技能(skill)身上,問一個很實際的問題:那些由社群熱心作者打包出來的技能,到底有沒有讓智能體的成品變得更好?為了回答這個問題,這個項目設計了一套評測流程,固定同一批任務、同一個評審模型,反覆比較「裝上技能」與「完全不裝技能」兩種情況的差異。

整套測試涵蓋 677 個案例,分屬商業、科學、健康、工程與創意五大場景,並對應五類日常常用的產出物:資料視覺化圖表、海報、簡報、分析報告,以及多頁網站。這樣的分佈能貼近真實使用智能體的場景,而不是只跑單一類型的乾淨考題。

更值得留意的是,這個項目同時記錄品質分數與成本資料,包括提示詞、生成、回快取的 token 數,以及實際耗時,方便讀者直接換算每一個技能值多少錢。從目前釋出的榜單來看,頭部模型之間的品質差距只有零點零幾分,但成本差距卻可以拉到 25 倍,凸顯「選模型」和「選技能」對整體花費的影響遠比想像中大。

論文亦點出多個值得技能作者參考的現象:熱門下載的技能未必穩定勝過無技能基準,而技能帶來的增益高度取決於底層模型與智能體框架的搭配方式。

重點摘要:

  • 固定任務、變動技能:以對照方式隔離技能本身的真實貢獻。
  • 五類任務、677 個案例:涵蓋圖表、海報、簡報、報告、網頁設計等常見產出。
  • 品質與成本並列:同時記錄 token 與耗時,方便換算性價比。
  • 適合技能作者、智能體開發者,以及需要評估部署成本的團隊。
  • 相關模型包括 Claude Opus 4.6、GPT-5.5 與 Claude Sonnet 4.6 等前沿選擇。

GitHub: https://github.com/ALEX-nlp/OpenSkillEval

項目: https://yingjiahao14.github.io/OpenSkillEval-Web/

Categories: 開源, Agentic, 框架

Page 1 of 86
1 2 3 86