HASP 真正會出手的技能框架

Hero image preview

這篇論文介紹 HASP,一個用來提升大型語言模型代理表現的框架。它想解決的核心問題很直接:以往不少代理會把過往經驗當成文字提示,但這些提示很多時只是「建議」,未必會在出錯前真正介入。

HASP 的做法,是把技能轉成可執行的 Program Functions(PFs)。簡單理解,PFs 會在代理進行推理、搜尋或寫程式時,檢查當前狀態和下一步動作;如果偵測到常見失誤,例如太早下結論、重複無效步驟,便會插手修正,或者補充有用脈絡。

這個項目的特別之處,在於技能不再只是放進提示詞的文字,而是能夠明確決定「何時啟動」和「怎樣改動下一步」。論文亦指出,HASP 具模組化特性,可在推論階段直接介入代理循環,也可用於後續訓練,甚至讓系統逐步整理和演化已驗證的技能庫。

重點可概括為:
– 把經驗技能由被動提示變成可執行規則
– 可在失誤風險較高的節點主動介入
– 適用於網頁搜尋推理、數學推理與編碼任務
– 既可免訓練使用,也可配合後續訓練與自我改進

如果你正在做代理工作流、工具調用或長步驟推理,這個項目特別值得留意。論文報告顯示,在網頁搜尋推理中,單靠推論階段的 PFs,平均表現比多輪 ReAct Agent 提升 25%;結合後續訓練與受控演化後,對 Search-R1 的提升達 30.4%。

整體來看,HASP 的價值不只是「再加一些提示」,而是為代理加入可重用、可驗證、可介入的技能機制。文中未有把所有細節簡化成通用產品指南,但對想提升代理穩定性、減少重複犯錯的人來說,它提供了一條相當清晰的方向。

Paper: https://arxiv.org/pdf/2605.17734

Categories: 框架

Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架

AutoResearchClaw:由想法走向論文的 AI 流程

AutoResearchClaw Logo

AutoResearchClaw 是一個面向研究工作的 AI 項目,目標不是單純幫你寫字,而是把「提出題目、討論假設、安排實驗、整理結果、輸出論文」串成一條連續流程。由描述可見,它特別針對傳統線性流程的限制,嘗試讓系統在失敗後仍可調整方向,而不是一步出錯就停住。

動手理解這個項目,最自然的方法是把它當成一位研究助理:先輸入一個研究主題,再讓系統展開分析、規劃與生成。它亦支援與 OpenClaw 配合,而人類介入功能預設為關閉,代表你可以先用原本流程體驗,再按需要加入審批或協作節點,不會一下子改變整套使用習慣。

這個項目較有意思的地方,在於它不只靠單一模型一次過完成工作。根據論文介紹,它結合多代理辯論、失敗後修正的執行機制、可驗證的結果彙報,以及跨次任務累積經驗的設計,方向上比一般「輸入提示詞、輸出文章」的工具更接近真正研究循環。

  • 以一句研究想法作為起點,嘗試延伸成完整研究流程
  • 強調多代理協作,而非單一路徑生成內容
  • 支援人類參與模式,但預設不影響原有流程
  • 可選整合 MetaClaw,核心流程毋須新增依賴
  • 已通過 2,699 項測試,顯示整合新功能後穩定性未見明顯倒退

適合的場景包括學術探索、研究提案發想、實驗規劃初稿,以及想觀察 AI 如何拆解研究問題的人。相關比較對象可留意 AI Scientist v2,論文亦直接以 ARC-Bench 作基準比較;若你關心的是代理式研究系統,而不只是聊天機械人,這個項目值得放入觀察名單。不過它產出的內容仍應由研究者覆核,尤其在方法設計、引用與結論判斷上更需要人手把關。

GitHub: https://github.com/aiming-lab/AutoResearchClaw

Paper: https://arxiv.org/pdf/2605.20025

Categories: 開源, Agentic, OpenClaw

OpenComputer:電腦代理評測更貼地

OpenComputer

OpenComputer 主要處理一個很實際的難題:當 AI 代理要打開瀏覽器、改文件、用設計工具或整理檔案時,怎樣才算「真的完成任務」?它不是靠主觀判斷,而是為不同桌面軟件建立可檢查的狀態驗證方式,令評測結果更穩定,也較容易重現。

動手使用時,重點不是直接把它當成一般應用程式安裝,而是按專案提供的環境設定範本準備評測環境,再選擇本機沙盒或雲端後端,之後用現成任務去跑代理測試。專案亦分開了修復評測、AWS 遠端 Docker 與 Tencent Cloud 中國區部署文件,明顯是為較正式的實驗流程而設。

它最有意思的地方,在於把「出題」和「判卷」都系統化。除了為應用程式建立檢查端點,還會自動生成較真實、可機器驗證的桌面任務,並記錄整段操作軌跡,連部分完成的進度都可計分;比起只看最後答案,這種做法更適合分析代理卡在哪一步。

  • 覆蓋 33 個桌面應用程式與 1,000 個已定稿任務
  • 場景包括瀏覽器、文書、創作工具、開發環境、檔案管理與通訊軟件
  • 評測不只看成敗,亦會保留操作過程與部分分數
  • 驗證方式較依賴程式化檢查,不單靠語言模型做裁判

專案適合做 AI 代理、桌面自動化、基準測試或研究評估方法的團隊;一般用家未必會直接拿來日常使用。從論文內容看,相關對比亦涉及 frontier agents、open-source models,以及 OSWorld-Verified 這類評測結果,反映它比較像研究基建,而不是單一模型展示頁。整體而言,OpenComputer 的價值在於把電腦操作代理的評測,從「似乎做到」推進到「可以核實做到多少」。

GitHub: https://github.com/echo0715/OpenComputer

Paper: https://arxiv.org/pdf/2605.19769

Categories: 開源, 框架

AntiSD 點樣改善推理訓練盲點

fig1a overview

AntiSD 係一個研究型專案,主力處理語言模型做數學推理時嘅訓練偏差。一般做法會叫模型向一個「已知答案、更有提示」嘅自己學習,但作者指出,呢種安排往往會令模型更著重格式化、收尾式嘅字詞,反而削弱真正幫到逐步思考嘅中間推理線索。

呢個專案最特別嘅地方,係將常見嘅自我蒸餾方向反轉。簡單講,唔再一味逼學生版本貼近「已經知道答案」嘅老師版本,而係用一種受控制嘅方式保留兩者差異,等模型唔會過早放棄探索思路;同時再加上一個基於不確定度嘅開關,避免訊號去到後期失控。

實際睇法上,呢個方法唔係畀一般用家即裝即玩,而係較適合已經做緊推理模型訓練、想比較不同強化學習策略嘅人。閱讀論文、配合 GitHub 內嘅實驗設定同 W&B 結果去重現,會係較合理嘅使用方式;重點係觀察訓練步數、最終準確率,同埋模型喺中間推理字詞上有冇被過度壓縮。

  • 針對數學推理訓練中「答案啱,但思路變薄」嘅問題
  • 核心做法係反轉自我蒸餾訊號,而唔係沿用標準貼近策略
  • 論文提到以 pointwise mutual information 解釋點解方法有效
  • 在多個 4B 至 30B 模型上,據報可用更少訓練步數追平或超過基線
  • 相關模型包括 Qwen3-4B、Qwen3-8B,以及其他同級 4B 至 30B 語言模型

以定位來講,AntiSD 比較似一個畀研究員同模型工程團隊參考嘅訓練配方,而唔係面向終端用戶嘅應用程式。對於關注 AIME、HMMT、BeyondAIME 呢類數學推理基準,或者正用 GRPO 一類方法微調模型嘅團隊,呢個專案提供咗一個值得認真比較嘅替代方向。

GitHub: https://github.com/FloyedShen/AntiSD

Paper: https://arxiv.org/pdf/2605.11609

Categories: 開源, 中國, 框架

wvs-code:用影片與聲音驗證模型是否真懂內容

Repository image for rakanWen/wvs-code

專案《When Vision Speaks for Sound》t提供官方程式碼,核心目標不是做一般影音問答,而是檢查支援影片的多模態模型,究竟有沒有真正理解聲音,還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程,方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型(video-capable MLLMs)進步很快,但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的:模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊,而不是真正去檢查或分析音頻串流本身 。

這個問題普遍存在於:

最先進的開源全能模型(omni models)

主要閉源模型供應商(如 Google 和 OpenAI)的頂級模型

換句話說,這些模型看起來能「聽懂」視頻中的聲音,但實際上它們只是「看」畫面來猜聲音是什麼,並沒有真正處理音頻數據,因此容易產生錯誤或幻覺(hallucinate)。

先準備好影片和音訊資料,再把資料登記到 LLaMA-Factory 的資料設定中,之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格,讓每條資料同時帶上 <video><audio>,方便模型學習在多模態情境下作答。

它比較特別的地方,在於採用介入式診斷框架 Thud,專門測試模型是否真的有做音訊驗證,而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用,也比單純準確率更能揭示模型行為。

  • 可用來評測影片語音、音畫同步、時間延遲等問題
  • 適合做多模態模型研究、除錯和基準測試
  • 支援 SFT 與 DPO 訓練流程
  • 可接入 LLaMA-Factory 一起使用
  • 相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說,這個專案更像是一套「檢查工具」,而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測,或者想分析模型有沒有偷懶靠畫面猜答案的人,會特別有參考價值。

GitHub: https://github.com/rakanWen/wvs-code

Paper: https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

LiteFrame 點樣令 AI 睇影片更多更快

Google DeepMind

而家不少影片大模型都可以答片段問題、做內容理解,但片一長,速度同成本就會急升。LiteFrame針對的正正唔係表面上的「睇少啲格」,而係指出每一格都交俾大型視覺編碼器處理,本身先係真正慢位。

這個專案提出一個較輕量的影片編碼骨幹,核心做法是用較大的教師模型,教一個更精簡的學生模型直接產生已壓縮、但仍保留時空資訊的表示。論文將這套訓練方式稱為 Compressed Token Distillation,另外亦配合 Language Model Adaptation,令後續語言模型更易接住使用這些視覺資訊。

對使用者而言,現階段較適合作為研究參考而非即裝即用工具,因為 README 已說明程式碼和權重尚未釋出。實際閱讀可以先由論文和項目頁入手,集中看它如何比較端到端延遲、可處理影格數,以及在多個影片理解基準上的準確度變化。

  • 重點不只是減少語言模型負擔,亦直接降低逐格視覺編碼成本
  • 主打長影片理解,在固定運算預算下處理更多 frames
  • 論文提到相對 InternVL3-8B,可降低端到端延遲並處理更多影格
  • 適合做影片問答、影片描述、時序推理相關研究參考
  • 文中脈絡亦關連到 Video LLM、MLLM、ViT、InternVL3-8B 等模型路線

整體來看,LiteFrame的價值在於把焦點由「事後刪 token」移前到「一開始就更有效率地抽特徵」。對關注長片分析、影片助手或多模態系統的人來說,這是一條幾實際的新方向,不過最終落地效果仍要等官方釋出程式碼與模型後,先可以更完整驗證。

GitHub: https://github.com/jjihwan/LiteFrame

Paper: https://arxiv.org/pdf/2605.17260

Categories: 開源, Google, 模型, 視覺模型

ZEDA 點樣令 MoE 推理更慳力

Overview of Unified Post-Training Framework.

ZEDA 針對的是一個很實際的痛點:大型 MoE 模型雖然強,但部署時每次回應都要動用唔少計算資源,成本高、速度亦受影響。呢個專案的目標,係唔使由頭再訓練模型,而係在現有、已做完後訓練的 MoE 之上,再改造成更靈活的動態版本。

它的做法有點似「老師帶學生」:先用原本的 MoE 當固定老師,再訓練新的學生模型去學習輸出,同時加入一種零輸出的專家,讓部分較簡單的 token 可以略過不必要計算。根據論文與倉庫資訊,這種方法可減少超過一半 expert FLOPs,整體表現只屬輕微下跌,並帶來約 1.20 倍端到端推理加速。

ZEDA 不是通用開發框架;它是清華 C3I 團隊的一個研究專案,從公開論文摘要看,全名是 Zero-Expert Self-Distillation Adaptation,目標是把靜態 MoE 模型轉成更高效的動態 MoE 模型,以降低推理成本並提升速度。這個專案對應的 GitHub 倉庫就是 TsinghuaC3I/ZEDA,而論文頁面也明確指向該 repo。

實際動手時,流程大致分兩步:先做 SFT,利用老師模型產生的回應或已釋出的 rollout 結果訓練學生;之後再做 OPD,改為由學生自己生成,再由老師提供 token 級別目標去微調。倉庫亦提到可配合已公開的 prompts 與 rollout 資料使用,對想重現結果或套用到指定 MoE 的人會方便不少。

  • 核心價值:把已完成訓練的靜態 MoE,改成推理時更慳算力的動態 MoE
  • 方法亮點:加入零輸出專家,再用兩階段自蒸餾穩定轉換過程
  • 可選模型:Qwen3-30B-A3B、GLM-4.7-Flash
  • 適合場景:模型已定版,但上線後仍想再壓低推理成本
  • 資料配套:提供 prompts 集合,亦釋出部分 rollout 結果可直接利用

整體來看,ZEDA 最值得留意的地方,不是單純追求更高分,而是補上「模型已經訓練完,之後仲可以點樣再慳資源」這一步。對研究 MoE 部署、推理優化,或者手上已有大型後訓練模型的團隊,這個方向相當有參考價值;至於一般讀者,可以把它理解成一種用較少電腦功夫,換來差不多效果的改裝方案。

GitHub: https://github.com/TsinghuaC3I/ZEDA

Paper: https://arxiv.org/pdf/2605.18643

Categories: 開源, 中國, 清華大學, 上海人工智慧實驗室

chi-bench:測試醫療 AI 代理真功夫

χ-Bench

chi-bench 係一個用來評估 AI 代理嘅基準環境,重點唔係問答,而係要模型喺模擬出嚟嘅美國醫療工作流程中,逐步完成整個個案。它覆蓋事前授權、保險方利用管理,以及群體照護管理三類長流程工作,目的是測試 AI 有冇能力處理多步驟、規則密集、而且涉及多角色協作嘅任務。

官方摘要提到它使用 20 個 healthcare apps、87 個 MCP tools,以及一份 1,290+ 文件的 managed-care operations handbook 作為任務依據。

實際使用時,研究者通常會先準備對應嘅 API 金鑰,再揀選代理框架同模型跑任務,之後由內建評審機制按每次結果評分。每個任務會提供臨床個案、模擬工作系統,以及大量操作手冊,AI 要透過工具呼叫同撰寫文件去推進流程,唔係單靠生成一段答案就算完成。

它最有意思嘅地方,在於把醫療行政流程入面最麻煩嘅部分具體化:規則多、文件多、系統多,而且中途可能要反覆互動。相比一般 benchmark 只量度單步推理,chi-bench 更接近現實世界,因為它會考驗模型點樣跨應用程式、跟住政策辦事,並保持長時間決策一致。

  • 涵蓋 3 大醫療流程場景,屬於端到端任務評估
  • 以約 20 個模擬醫療應用及大量文件作為操作環境
  • 支援多類代理與模型比較,包括 Claude、OpenAI、Gemini 及開源權重路線
  • 排行榜以 pass@1 為主,亦可保留多次試跑作額外分析

從現有資料睇,呢個基準對現時最強模型都相當困難,代表它有一定鑑別力,唔會輕易被高分掩蓋弱點。已知相關配置包括 Claude Code 配 Claude Opus、OpenAI/Codex 路線、Gemini CLI,以及經 OpenRouter 接入嘅 Hermes、OpenClaw、DeepAgents 等;至於具體表現會隨代理包裝方式同工具使用能力而有明顯差異。

對 AI 代理研究員、醫療流程自動化團隊,甚至想了解「模型識唔識真做事」嘅產品人員嚟講,chi-bench 都幾有參考價值。不過它聚焦美國醫療制度同受規管流程,閱讀結果時要留意場景限制,唔適宜直接當成所有行業嘅通用結論。

GitHub: https://github.com/actava-ai/chi-bench

Paper: https://arxiv.org/pdf/2605.16679

Categories: 開源, Medical醫學, 框架

OProver 點樣令 AI 更識寫數學證明

OProver framework overview

OProver 係一個圍繞 Lean 4 建立的形式化證明框架,重點唔係單次叫模型「寫答案」,而係讓系統一邊嘗試、一邊讀取已驗證證明,再根據編譯器回饋反覆修正。對非研究背景讀者來講,可以理解成 AI 做數學題時,不只交卷一次,而係會睇提示、改錯,再重新整理答案。

實際使用上,這個專案較適合已有 Lean 4 或機器學習環境的人:一類會用它做證明推理與驗證流程,另一類會直接研究訓練管線、資料建構同檢索庫管理。儲存庫同時提供模型與資料方向,包括 OProver-8BOProver-32B,以及 OProofs 語料,較適合想評估模型表現、重現論文流程,或建立自家證明代理系統的團隊。

它要解決的核心問題,是形式化證明往往唔能夠靠一次生成成功,尤其 Lean 4 對語法、型別同邏輯正確性要求非常嚴格。OProver 的特別之處,在於把「找相似證明」、「接收編譯器錯誤訊息」同「多輪修補」由臨時技巧,變成訓練時已經學會的整體策略,這點比只在推理階段追加外掛模組更完整。

  • 支援多輪修正,而唔係只生成一次證明
  • 會利用已驗證證明作檢索參考,提升命中率
  • 透過 Lean 4 伺服器做機械驗證,結果更可靠
  • 提供 CPT、SFT、RL 等訓練流程,覆蓋研究到實作
  • 附帶大型 OProofs 資料集,方便分析 pass@k 與修復軌跡

以公開資訊看,OProofs 規模相當大,包含 1.77M 個 Lean 陳述、6.86M 個經編譯器驗證的證明,亦保留失敗嘗試與後續修復過程,這對研究「模型點樣由錯變對」尤其有價值。論文亦提到它在 MiniF2F、ProverBench、PutnamBench 等基準有突出表現;不過這類成果仍主要面向形式化數學、定理證明研究者,同一般應用型開發者的距離會稍遠。

GitHub: https://github.com/multimodal-art-projection/OProver

Paper: https://arxiv.org/pdf/2605.17283

Categories: 開源, 模型

Page 1 of 81
1 2 3 81