wvs-code:用影片與聲音驗證模型是否真懂內容

Repository image for rakanWen/wvs-code

專案《When Vision Speaks for Sound》t提供官方程式碼,核心目標不是做一般影音問答,而是檢查支援影片的多模態模型,究竟有沒有真正理解聲音,還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程,方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型(video-capable MLLMs)進步很快,但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的:模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊,而不是真正去檢查或分析音頻串流本身 。

這個問題普遍存在於:

最先進的開源全能模型(omni models)

主要閉源模型供應商(如 Google 和 OpenAI)的頂級模型

換句話說,這些模型看起來能「聽懂」視頻中的聲音,但實際上它們只是「看」畫面來猜聲音是什麼,並沒有真正處理音頻數據,因此容易產生錯誤或幻覺(hallucinate)。

先準備好影片和音訊資料,再把資料登記到 LLaMA-Factory 的資料設定中,之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格,讓每條資料同時帶上 <video><audio>,方便模型學習在多模態情境下作答。

它比較特別的地方,在於採用介入式診斷框架 Thud,專門測試模型是否真的有做音訊驗證,而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用,也比單純準確率更能揭示模型行為。

  • 可用來評測影片語音、音畫同步、時間延遲等問題
  • 適合做多模態模型研究、除錯和基準測試
  • 支援 SFT 與 DPO 訓練流程
  • 可接入 LLaMA-Factory 一起使用
  • 相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說,這個專案更像是一套「檢查工具」,而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測,或者想分析模型有沒有偷懶靠畫面猜答案的人,會特別有參考價值。

GitHub: https://github.com/rakanWen/wvs-code

Paper: https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

chi-bench:測試醫療 AI 代理真功夫

χ-Bench

chi-bench 係一個用來評估 AI 代理嘅基準環境,重點唔係問答,而係要模型喺模擬出嚟嘅美國醫療工作流程中,逐步完成整個個案。它覆蓋事前授權、保險方利用管理,以及群體照護管理三類長流程工作,目的是測試 AI 有冇能力處理多步驟、規則密集、而且涉及多角色協作嘅任務。

官方摘要提到它使用 20 個 healthcare apps、87 個 MCP tools,以及一份 1,290+ 文件的 managed-care operations handbook 作為任務依據。

實際使用時,研究者通常會先準備對應嘅 API 金鑰,再揀選代理框架同模型跑任務,之後由內建評審機制按每次結果評分。每個任務會提供臨床個案、模擬工作系統,以及大量操作手冊,AI 要透過工具呼叫同撰寫文件去推進流程,唔係單靠生成一段答案就算完成。

它最有意思嘅地方,在於把醫療行政流程入面最麻煩嘅部分具體化:規則多、文件多、系統多,而且中途可能要反覆互動。相比一般 benchmark 只量度單步推理,chi-bench 更接近現實世界,因為它會考驗模型點樣跨應用程式、跟住政策辦事,並保持長時間決策一致。

  • 涵蓋 3 大醫療流程場景,屬於端到端任務評估
  • 以約 20 個模擬醫療應用及大量文件作為操作環境
  • 支援多類代理與模型比較,包括 Claude、OpenAI、Gemini 及開源權重路線
  • 排行榜以 pass@1 為主,亦可保留多次試跑作額外分析

從現有資料睇,呢個基準對現時最強模型都相當困難,代表它有一定鑑別力,唔會輕易被高分掩蓋弱點。已知相關配置包括 Claude Code 配 Claude Opus、OpenAI/Codex 路線、Gemini CLI,以及經 OpenRouter 接入嘅 Hermes、OpenClaw、DeepAgents 等;至於具體表現會隨代理包裝方式同工具使用能力而有明顯差異。

對 AI 代理研究員、醫療流程自動化團隊,甚至想了解「模型識唔識真做事」嘅產品人員嚟講,chi-bench 都幾有參考價值。不過它聚焦美國醫療制度同受規管流程,閱讀結果時要留意場景限制,唔適宜直接當成所有行業嘅通用結論。

GitHub: https://github.com/actava-ai/chi-bench

Paper: https://arxiv.org/pdf/2605.16679

Categories: 開源, Medical醫學, 框架

AI for Auto-Research: 一站看清 AI 自動科研版圖 survey+指南

teaser paper

awesome-ai-auto-research 不是一般教你寫程式的工具庫,而是一份面向科研流程的整理清單。它配合同名綜述文章,將 AI 參與研究工作的方式,按由構思到發表與傳播的不同階段串連起來,方便讀者一次過看清全貌。

使用時可以先按研究工作所在位置去看分類:例如找論文、整理文獻、安排實驗、檢查程式是否可重現,甚至延伸到寫作、評審回應和成果展示。這種按流程瀏覽的方法,對初次接觸「AI 幫手做研究」的人特別友善,因為不用先熟悉所有模型名稱,已可由任務入手。

它值得留意的地方,是不只列出生成內容的工具,還把品質評估、重現性與協作型系統放在同一張地圖上。換句話說,這個專案關心的不只是「寫得快」,而是研究是否找得準、做得穩、驗得清。

  • 以完整研究生命週期整理資料,較易按需要查找
  • 涵蓋文獻搜尋、綜合、實驗執行與程式驗證等範圍
  • 包含單一模型知識生成多代理協作生成方向
  • 也觸及檢索與綜合品質評估、程式正確性與可重現性

適合的讀者包括研究生、學術支援人員、對 AI 科研工具有興趣的工程師,以及想了解市場與技術走向的人。相關方向可留意大型語言模型、檢索增強系統、多代理系統、自動文獻回顧、實驗編排工具,以及用來評估摘要與程式可靠性的框架;不過這個儲存庫本身較像導航地圖,重點在幫你快速定位值得追看的論文與主題。

GitHub: https://github.com/worldbench/awesome-ai-auto-research

Paper: https://arxiv.org/pdf/2605.18661

Categories: 框架

MMSkills:幫視覺代理學識睇畫面做事

MMSkills

MMSkills 是一個為視覺代理而設的技能框架,重點不是單靠文字提示,而是把「點做一件事」連同畫面線索、狀態提示和可參考影像一併保存。對一般讀者來說,可以理解成替 AI 準備一本會按情境翻閱的操作手冊,而不是每次由零開始估。

MMSkills 嘗試解決視覺代理在桌面操作或遊戲場景中,經常知道目標卻未必識得判斷畫面進度、失敗跡象,或者下一步應否轉招。MMSkills 的做法是只保留輕量提示,當偵測到當前狀態適合某個技能時,才臨時開一個分支去查看較完整的步驟與視覺參考,減少主上下文負擔。

留意 agent adapter 如何接入現有代理。公開資料顯示,它已提供可搜尋的多領域技能庫,並支援把技能包接到不同代理流程,較適合已有代理系統、想提升穩定性的人使用。

  • 把文字步驟、狀態卡與關鍵畫面結合,不只靠 prompt
  • 技能可搜尋及重用,現有網站顯示技能庫規模達 515 個
  • 採用臨時分支讀取技能,較像按需要查手冊
  • 適用於 GUI 與遊戲型視覺任務,重點在運行時決策
  • 可對接 Codex、OpenClaw、Claude Code 等代理

這個項目的新意,在於它不只研究模型本身,而是把外部經驗整理成可重用知識包,再在推理時按狀態調用。論文摘要亦提到,這套方法對前沿模型和較小型多模態模型都有幫助;如果你正在關注電腦代操作、自動化測試、遊戲代理,或者想研究 AI 如何「睇畫面再行動」,MMSkills 值得留意。

GitHub: https://github.com/DeepExperience/MMSkills

網址: https://arxiv.org/pdf/2605.13527

Categories: Agentic, 視覺模型, 框架

RealICU:測試AI能否真正讀懂深切治療數據

Og image

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定,而是看它面對長時間、資訊密集又持續變化的病人資料時,能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣,RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料,目的唔係叫模型照抄過往醫生做法,而係測試模型面對完整病程時,能否作出更合理判斷。

這個項目針對一個很實際的問題:ICU 決策往往要在高壓下,快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案,但原始決策當時可能資訊未齊全,因此未必最理想;RealICU 改用事後回顧整個病人歷程的標註方式,嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目,最適合由它定義的四類任務入手:病人目前情況、急性問題、建議處置,以及需要避免的危險行動。網站亦提供論文與程式碼入口,而資料集顯示仍有部分內容即將推出;若你是研究者,可先用 RealICU-Gold 和 RealICU-Scale 的設計思路,理解其評估框架。

  • 由超過30位臨床醫生共同界定核心任務
  • 包含 930 個醫生共識樣本,以及 11,862 個大規模評估視窗
  • 引入經醫生驗證的 LLM 評估器作大規模標註
  • 提出 ICU-Evo,以結構化記憶研究長時序推理
  • 發現前沿模型存在召回與安全之間的取捨,以及錨定偏差

這個項目的創新之處,在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外,ICU-Evo 用多種結構化記憶整理臨床上下文,較貼近醫生思考方式;不過作者亦明確指出,這類方法雖有助長程推理,仍不足以保證安全。

整體而言,RealICU 特別適合醫療AI研究者、醫院創新團隊,以及關注高風險場景AI安全的人士。從現有結果看,這不是一個宣稱模型已可直接臨床部署的項目,而是一個更嚴謹的測試場,幫助大家看清AI在真實重症決策支援中的能力與限制。

層級作用規模標註方式
RealICU整體 benchmark全部框架包含 Gold 和 Scale 兩部分 
RealICU-Gold高品質基準集930 windows / 94 patients醫師共識標註 
RealICU-Scale大規模延伸集11,862 windowsOracle 自動擴展標註 

在 RealICU-Gold 上,Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534;同時,structured memory 雖然提升了長程推理,但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說,ICU-Evo 是“更好的 memory-based agent”,但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window,來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle(醫師驗證過的 LLM hindsight evaluator)自動擴展標註

網址: https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架

AlphaGRPO:能自我修正的多模態生成

Og image

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架,重點係令模型唔只係「生成」,而係會根據提示主動推理,並喺輸出有偏差時嘗試自行修正。網頁內容指出,佢主要面向文字生圖同相關編輯場景,目標係改善細節理解、構圖一致性,同埋對隱含要求嘅掌握。

呢個方法特別之處,在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型,而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward:先將複雜指令拆成多個可核實嘅細問題,再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋,避免只靠單一分數太過籠統。

如果你想理解點樣使用,概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法,而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師,或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

  • 支援推理型文字生圖,能更主動補足用家未明講嘅意圖
  • 可做自我反思式修正,生成後再檢查並調整錯配內容
  • 回饋機制較細緻,將要求拆解成可驗證項目再評估
  • 在多個生成基準上有一致進步,亦可遷移到編輯任務
  • 推論階段加入自我修正後,文中指最高可再提升 5.8%

就評估結果而言,頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準,以及 GEdit 編輯任務都有提升,而且編輯能力並非靠專門編輯訓練得來,反映泛化表現不俗。不過,具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核,審核通過後將予以發布。

網址: https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

FATE點樣幫AI代理由失敗中學安全

FATE framework

而家愈來愈多 AI 唔止係聊天,仲會幫你用工具、分步完成任務。不過真正危險嘅地方,往往唔係最後一句回覆,而係中途做過啲乜。FATE 針對嘅正正係呢一類問題:當代理模型喺操作流程中出錯,系統會將失敗過程抽出,再用作之後嘅改進材料。

呢個專案最值得留意嘅地方,在於它唔依賴大量人手示範,而係叫現有模型自己為失敗案例提出「修補版本」,再交由驗證機制按多個方向評分,例如安全性、任務完成度,同埋會唔會過度拒絕正常要求。之後再用篩選後嘅資料微調模型,並配合 PFPO 去平衡安全與實用性。

如果你想理解點樣上手,較合理嘅方式係先由論文、專案頁面同結果表開始睇,因為目前公開內容主要集中喺方法與評測表現。它唔係一般即裝即用嘅應用程式,更適合當作研究框架,畀有做代理系統、安全評估或模型訓練嘅人參考。

  • 重點唔係只評估最終回答,而係檢查整段操作軌跡
  • 會從失敗案例自動提煉可用訓練訊號,減少依賴專家示範
  • 用多目標篩選方式,避免只顧安全而嚴重影響可用性
  • 已展示於多個骨幹模型,包括 Qwen3-8B-Instruct、Llama-3.1-8B-Instruct、Ministral-3-8B-Instruct、Gemma-3-12B-it、Phi-4-reasoning

由結果睇,FATE 喺 AgentDojo 同 AgentHarm 上,對多款模型都帶來更低風險指標,同時保留較好任務表現。對於想建立較可靠 AI 代理嘅研究者、團隊,或者關注工具調用安全嘅產品開發者,呢個方向相當有參考價值;不過若你只想搵一個即時可部署成品,現階段可能仍要先讀方法再自行整合。

網址: https://github.com/YinBo0927/FATE

網址: https://arxiv.org/pdf/2605.11882

Categories: 開源, Agentic, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

main full

如果你對「會自己搵資料的 AI」有興趣,ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案,而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果,甚至對圖片放大、旋轉或翻轉,再整理證據作判斷。

對初學者來講,可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合,重點係同一套流程可同時用於測試與強化學習;不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題,是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法,是先用監督式訓練教基本動作格式,再用強化學習讓代理在真實互動中調整策略,之後分析操作軌跡,找出行為缺口,再回頭改善下一輪訓練資料。

比較特別的是,它把中途見過的圖片保存成可重用參照,之後可以再裁切、檢視或做視覺搜尋,唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要,亦比只靠文字搜尋的代理更貼近真實使用情境。

  • 支援多種工具流程:網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
  • 著重保留中間圖像證據,方便後續步驟重用
  • 訓練方式結合 SFTRL,並用操作紀錄反推資料改進方向
  • 已展示在 Qwen3-VL-8BQwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統,或者關心模型如何可靠地「邊找邊想」,這個專案會有參考價值。對一般讀者而言,它亦提供了一個清楚例子:未來較實用的 AI,未必只係更大模型,而係更懂得在圖像與文字之間有條理地找證據。

網址: https://github.com/JoeYing1019/ODE

網址: https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

OmniDoc-TokenBench:文件圖片重建試金石

OmniDoc-TokenBench

如果你有留意 AI 圖像模型,會知道一般圖片評分未必能反映「文字有冇走樣」。OmniDoc-TokenBench 的重點,正正是針對文件類圖片做評測,尤其適合檢查 VAE 重建之後,頁面上的字仲讀唔讀得清。

它提供約 3,000 張樣本,涵蓋書本、投影片、試卷、學術論文、雜誌、財務報告、報紙與筆記等類型,並且同時有中英文內容。相比只看普通畫質分數,這個基準多加了 OCR 相關比對,較貼近真實使用情境,因為文件圖片最重要的往往不是「靚」,而是「字準」。

上手方式大致算直接:先下載資料集,再用它附帶的評測工具,將你的重建圖片與原圖比較。工具會輸出整體結果,也可看到逐張圖片的 OCR 與字串距離表現;不過部分指標首次執行時需要額外下載模型權重,而 OCR 預設亦偏向 CPU,做大批量測試時可能要留意速度。

值得留意的是,它不是單靠 PSNR、SSIM 這類傳統指標,而是加入 LPIPS、FID,以及以 OCR 為基礎的 NED。對文件任務來說,NED 特別實用,因為它更能反映文字內容有冇被改錯;這亦是它相對一般影像基準較有針對性的地方。

  • 適合評估文字密集的文件圖片重建效果
  • 資料涵蓋九類文件,中英文都有
  • 支援 PSNR、SSIM、LPIPS、FID、NED 等多種量度方式
  • 可輸出整體分數,也可查看逐張圖片結果
  • 文中提到相關模型背景來自 Qwen-Image-VAE-2.0,並比較不同壓縮設定與其他 VAE 表現

如果你是做文件數碼化、OCR 前處理、壓縮重建,或者正測試圖像自編碼模型,這個專案幾有參考價值。對一般讀者而言,可以將它理解成一把專為「文件圖片文字保真」而設的尺,幫你分清模型究竟只是畫面順眼,還是真的保住內容。

網址: https://github.com/alibaba/OmniDoc-TokenBench

Categories: 開源, 視覺模型, 框架

FrontierSmith:用合成題目研究AI解題

FrontierSmith Logo

FrontierSmith 不是一般給人即裝即玩的應用,而是一個用來研究「怎樣產生全新演算法題目」的實驗型專案。儲存庫公開了訓練程式、評估程式,以及論文實驗用的 10 條合成題目,較適合對 AI、程式競賽題目或評測流程有興趣的讀者。

如果你想由淺入深理解它,最容易的方式是先看那 10 個題目資料夾:每題都附有題目敘述、測資產生器、答案檔、評分檢查器和設定檔。即使未必會親自訓練模型,單是觀察這套結構,已經能明白一條題目怎樣被整理成可測試、可重現的形式。

它真正處理的問題,是減少人手設計複雜題目的成本,並為模型建立較一致的測試環境。特別之處在於,它不只放出題目文字,而是連同驗證、評分與資料準備流程一併公開,令研究者較容易重做論文中的部分結果;不過官方亦明確保留了 orchestrator 與由大型語言模型驅動的測試/checker 生成部分,所以目前看到的並非完整生產線。

  • 提供 10 條合成演算法題目,對應 Frontier-CS 主儲存庫中的 306 至 315 號題目
  • 內含訓練、評估、資料準備腳本,重點在研究流程而非一般終端產品
  • 每題都有 statement、gen、checker、testdata,方便理解評測設計
  • 使用 Python 3.11+,並見到 Docker、VERL、ALE-Bench 等相關組件
  • 適合做論文重現、題目評測研究,以及觀察模型解題表現

至於適合甚麼人,我會說最受用的是研究人員、機器學習工程師、競賽題目設計者,以及想了解 LLM 如何面對演算法題的人。如果你只是想找一個完整的自動出題工具,現階段可能會覺得資訊仍有缺口;但如果你的目標是研究方法、資料結構與評估框架,FrontierSmith 的公開部分已相當值得細看。

從相關技術脈絡來看,這個專案明顯圍繞大型語言模型與程式/推理能力評測而建,儲存庫中可見的相關名稱包括 VERLALE-BenchHarbor adapter,以及主儲存庫 Frontier-CS。至於實際採用哪些語言模型,公開內容未有完整列明,因此閱讀時應把它視為一個偏研究基建的開放樣本,而不是完整商用方案。

網址: https://github.com/FrontierCS/FrontierSmith

Categories: 開源, 框架

Page 12 of 13
1 10 11 12 13