SkillsVote:幫 AI 代理揀啱技能

pipeline

近年愈來愈多 AI 代理會靠「技能」完成寫程式、研究整理或流程自動化,但技能數量一多,就唔再係人手揀幾個清單咁簡單。SkillsVote 針對嘅,正正係大型技能庫管理:先由公開 GitHub 收集到超過 168 萬份 SKILL.md,當中約 79 萬份通過格式驗證,再進一步處理點樣推薦、判斷成效同持續整理。

實際使用上,呢個專案比較似一套治理層,而唔只係單一模型或插件。公開版本已經提供技能分析與前處理、實驗重現腳本,以及兩條整合路線:一條連接託管服務做雲端推薦,另一條係本地版 skills-vote-local,支援私有環境用代理式搜尋或向量搜尋去搵合適技能。

它較特別之處,在於唔係單靠關鍵字配對,而係把技能當成可持續管理嘅資產。簡單講,系統會先分析技能需要咩執行環境、依賴項同質素,再喺任務開始前做即時推薦;完成後再根據執行軌跡、使用情況同驗證訊號,較審慎咁判斷某項技能有冇真正幫到手。

  • 已整理大規模技能庫,適合唔想由零開始收集技能嘅團隊
  • 提供雲端版同本地版整合,方便公開或私有部署場景
  • 重點唔止推薦,仲包括品質分析與後續更新治理
  • 較適合 coding agent、research agent、workflow agent 相關應用
  • 文中涉及的模型與評測包括 GPT-5.2GPT-5.4 miniTerminal-Bench 2.0SWE-Bench Pro

對開發團隊而言,較自然嘅做法係先用本地或託管整合,把現有技能庫接入,再觀察系統推介結果同任務軌跡。現有資料亦顯示,它把重點放喺「唔更新模型本身,都可透過外部技能庫改善代理表現」;至於本地歸因與技能演化功能,儲存庫顯示仍在補完中,所以部署前可先視作一個已具雛形、但仍持續擴展嘅技能治理方案。

GitHub: https://github.com/MemTensor/skills-vote

Paper: https://arxiv.org/pdf/2605.18401

Categories: Agentic, 影像處理, Skill 技能

CiteVQA

CiteVQA overview

做文件問答評測時,很多工具只睇最後答案啱唔啱,但現實上,尤其是合約、財務報告、醫療文件呢類長篇 PDF,真正重要的是「答案來自邊一頁、邊一段、邊個區塊」。CiteVQA 針對的正正是這個缺口:它不只要求系統回答問題,仲要指出支撐答案的文件位置,而且細到元素層級,例如頁碼同區域框選。對想評估文件 AI 是否可靠的人來講,這比單純比拼答題分數實用得多。

實際使用上,這個專案較適合作為評測基準,而唔係一般用家即開即用的聊天工具。研究團隊、產品開發者或企業內部做文件自動化測試時,可以先取得資料集,再用自己的多模態模型跑推論,之後交畀評估程式比對答案與引用位置是否同樣正確。資料涵蓋英文與中文文件,來自 711 份 PDF、共 1,897 條問題,平均每份文件超過 40 頁,亦分成單一文件問答,以及要在多份文件中找答案的情境,難度相當貼近真實工作流程。

這個專案最值得留意的地方,是它把「答對」與「引對證據」綁埋一齊計分。核心指標 SAA 只有在答案正確,而且引用區域同標準證據對得上時先會得分,能更直接揭示模型有冇出現「講得似乎合理,但引用錯地方」的情況。根據公開結果,即使是表現較強的模型,答案分數與這種嚴格分數之間仍有明顯差距,反映現時不少系統其實未真正做到可追溯。這一點對高風險場景尤其重要,因為用戶要的不只是結論,仲要查得到根據。

重點可簡單整理成以下幾點:
不只評分答案,亦檢查引用證據是否真係來自正確頁面與區域
文件夠長亦夠真實,涵蓋 7 個大類領域、30 個細分類,並支援中英文
場景設計多樣,包括單文件、多文件但只有一份正確來源,以及多份來源都可能成立
適合測試文件型多模態模型,特別係要處理 PDF 版面、圖文混合與跨頁搜尋的系統
可用來比較模型可靠度,而唔係只比較誰的答案最似正解

從模型觀察角度看,這個基準亦提供了不錯的參考名單。公開結果提到的相關模型包括 Gemini-3.1-Pro-Preview、Gemini-3-Flash-Preview、GPT-5.4、Gemini-2.5-Pro、Seed2.0-Pro、GPT-5.2、Qwen3.6-Plus、GLM-5V-Turbo、Qwen3-VL-235B-A22B、Gemma-4-31B、Kimi-K2.5、Qwen3.5-397B-A17B 等。由這些結果可見,封閉模型在整體表現上暫時較領先,但開源模型同樣能作為對照組,方便團隊用統一方式測試自家方案。對要建立文件審核、知識搜尋、報告核對、法規查證流程的人來說,CiteVQA 的價值不在於幫你直接產生答案,而在於幫你分辨:哪個模型,才真係值得信。

GitHub: https://github.com/opendatalab/CiteVQA

Paper: https://arxiv.org/pdf/2605.12882

Categories: 開源, Agentic, 中國, 上海人工智慧實驗室

MMSkills:幫視覺代理學識睇畫面做事

MMSkills

MMSkills 是一個為視覺代理而設的技能框架,重點不是單靠文字提示,而是把「點做一件事」連同畫面線索、狀態提示和可參考影像一併保存。對一般讀者來說,可以理解成替 AI 準備一本會按情境翻閱的操作手冊,而不是每次由零開始估。

MMSkills 嘗試解決視覺代理在桌面操作或遊戲場景中,經常知道目標卻未必識得判斷畫面進度、失敗跡象,或者下一步應否轉招。MMSkills 的做法是只保留輕量提示,當偵測到當前狀態適合某個技能時,才臨時開一個分支去查看較完整的步驟與視覺參考,減少主上下文負擔。

留意 agent adapter 如何接入現有代理。公開資料顯示,它已提供可搜尋的多領域技能庫,並支援把技能包接到不同代理流程,較適合已有代理系統、想提升穩定性的人使用。

  • 把文字步驟、狀態卡與關鍵畫面結合,不只靠 prompt
  • 技能可搜尋及重用,現有網站顯示技能庫規模達 515 個
  • 採用臨時分支讀取技能,較像按需要查手冊
  • 適用於 GUI 與遊戲型視覺任務,重點在運行時決策
  • 可對接 Codex、OpenClaw、Claude Code 等代理

這個項目的新意,在於它不只研究模型本身,而是把外部經驗整理成可重用知識包,再在推理時按狀態調用。論文摘要亦提到,這套方法對前沿模型和較小型多模態模型都有幫助;如果你正在關注電腦代操作、自動化測試、遊戲代理,或者想研究 AI 如何「睇畫面再行動」,MMSkills 值得留意。

GitHub: https://github.com/DeepExperience/MMSkills

網址: https://arxiv.org/pdf/2605.13527

Categories: Agentic, 視覺模型, 框架

OpenHuman:把個人AI助手帶到桌面

The Tet

如果你對 AI 有興趣,但又唔想由指令列、插件同繁複設定開始,OpenHuman 這類桌面式助手會幾易入口。按項目說明,它偏向圖形介面操作,安裝後可用較短流程連接日常帳戶,幾下點擊就能開始使用,對一般用家算友善。

它真正想解決的,不是「答你一條問題」咁簡單,而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊,整理成可持續使用嘅個人上下文。系統會自動抓取連接資料,並建立本機優先嘅記憶結構,令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方,是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段,存入 SQLite,亦可同步成相容 Obsidian 的筆記庫;同時又內建網頁搜尋、抓取、檔案操作、git、測試,以及語音輸入輸出,甚至提到可加入 Google Meet。模型方面,項目表示會按任務路由到不同類型模型,亦可選用本機 Ollama;相關能力涉及推理型、快速型、視覺型模型,語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

重點可以咁睇:
– 以桌面介面為先,較少依賴技術設定
– 可連接 118+ 第三方服務,減少資料分散
– 本機記憶庫加 Obsidian 相容筆記,方便追蹤與整理
– 內建工具鏈較完整,唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容,官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊,或者本身已經有一堆雲端工具要管理,OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段,實際穩定性、授權連接體驗同記憶準確度,較適合抱住嘗鮮加觀望心態去試。

網址: https://github.com/tinyhumansai/openhuman

Categories: 開源, Agentic

FATE點樣幫AI代理由失敗中學安全

FATE framework

而家愈來愈多 AI 唔止係聊天,仲會幫你用工具、分步完成任務。不過真正危險嘅地方,往往唔係最後一句回覆,而係中途做過啲乜。FATE 針對嘅正正係呢一類問題:當代理模型喺操作流程中出錯,系統會將失敗過程抽出,再用作之後嘅改進材料。

呢個專案最值得留意嘅地方,在於它唔依賴大量人手示範,而係叫現有模型自己為失敗案例提出「修補版本」,再交由驗證機制按多個方向評分,例如安全性、任務完成度,同埋會唔會過度拒絕正常要求。之後再用篩選後嘅資料微調模型,並配合 PFPO 去平衡安全與實用性。

如果你想理解點樣上手,較合理嘅方式係先由論文、專案頁面同結果表開始睇,因為目前公開內容主要集中喺方法與評測表現。它唔係一般即裝即用嘅應用程式,更適合當作研究框架,畀有做代理系統、安全評估或模型訓練嘅人參考。

  • 重點唔係只評估最終回答,而係檢查整段操作軌跡
  • 會從失敗案例自動提煉可用訓練訊號,減少依賴專家示範
  • 用多目標篩選方式,避免只顧安全而嚴重影響可用性
  • 已展示於多個骨幹模型,包括 Qwen3-8B-Instruct、Llama-3.1-8B-Instruct、Ministral-3-8B-Instruct、Gemma-3-12B-it、Phi-4-reasoning

由結果睇,FATE 喺 AgentDojo 同 AgentHarm 上,對多款模型都帶來更低風險指標,同時保留較好任務表現。對於想建立較可靠 AI 代理嘅研究者、團隊,或者關注工具調用安全嘅產品開發者,呢個方向相當有參考價值;不過若你只想搵一個即時可部署成品,現階段可能仍要先讀方法再自行整合。

網址: https://github.com/YinBo0927/FATE

網址: https://arxiv.org/pdf/2605.11882

Categories: 開源, Agentic, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

main full

如果你對「會自己搵資料的 AI」有興趣,ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案,而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果,甚至對圖片放大、旋轉或翻轉,再整理證據作判斷。

對初學者來講,可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合,重點係同一套流程可同時用於測試與強化學習;不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題,是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法,是先用監督式訓練教基本動作格式,再用強化學習讓代理在真實互動中調整策略,之後分析操作軌跡,找出行為缺口,再回頭改善下一輪訓練資料。

比較特別的是,它把中途見過的圖片保存成可重用參照,之後可以再裁切、檢視或做視覺搜尋,唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要,亦比只靠文字搜尋的代理更貼近真實使用情境。

  • 支援多種工具流程:網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
  • 著重保留中間圖像證據,方便後續步驟重用
  • 訓練方式結合 SFTRL,並用操作紀錄反推資料改進方向
  • 已展示在 Qwen3-VL-8BQwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統,或者關心模型如何可靠地「邊找邊想」,這個專案會有參考價值。對一般讀者而言,它亦提供了一個清楚例子:未來較實用的 AI,未必只係更大模型,而係更懂得在圖像與文字之間有條理地找證據。

網址: https://github.com/JoeYing1019/ODE

網址: https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

openclaw 最新版本重點速覽

Og image

今次 openclaw 2026.5.12 發佈內容,重點放在模組拆分同安裝體驗優化。根據版本說明,Amazon Bedrock 以及 Bedrock Mantle 相關 provider 套件已由核心程式分離,代表一般核心安裝唔再自動拉入 AWS SDK 依賴,只有真正需要這些 provider 時先另外安裝。

實際使用上,呢個改動對開發者同部署人員最直接。若你只用核心功能,可以保留較精簡環境;如果要接入 Amazon Bedrock,先再安裝對應 provider 套件,令依賴管理更清楚,亦較容易控制映像大小、安裝時間同維護成本。

呢個專案今次最明顯的創新,不是新增大量表面功能,而是把供應商整合能力改成按需載入思路。對插件系統來說,這類 externalize 做法通常有助減少不必要耦合,讓核心與外掛邊界更清晰,對長遠擴充同版本管理較有利。

受惠工作主要包括雲端整合、平台維運、DevOps、企業內部工具開發,以及需要多環境部署的團隊。尤其當不同專案未必都用 AWS 服務時,拆分 provider 可避免每個安裝都承受相同依賴負擔。

  • 核心安裝不再預設包含 AWS SDK 依賴
  • Amazon Bedrock 與相關 provider 改為獨立安裝
  • 更適合按需要啟用外掛與雲端整合
  • 有助簡化部署、維護與套件管理

性能與評估方面,頁面可見資訊未提供具體跑分、延遲或資源使用數據,因此較穩妥的結論是:這次更新較偏向架構與依賴優化,預期可改善安裝體積與管理效率,但實際效能提升幅度仍要視部署方式同使用的 provider 組合而定。

網址: https://github.com/openclaw/openclaw/releases/tag/v2026.5.12

Categories: 開源, Agentic, OpenClaw

Agent-ValueBench:AI 代理有冇價值觀?這個基準想測清楚

Agent-ValueBench logo

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講,佢唔只睇模型答得啱唔啱,而係觀察一個會用工具嘅語言模型代理,喺有衝突嘅情境入面,實際行動會偏向邊一種價值。

呢個專案較特別嘅地方,係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境,同 4,335 個價值衝突任務;每個案例都會定義任務、可用工具、執行環境,同評分規則,令比較唔再停留喺主觀印象。

實際使用上,研究者可以先用現成案例同環境,令代理喺指定任務中運行,再記錄成條行為軌跡,之後用已儲存嘅 rubric 去評分,分析代理較支持邊一方價值。對一般開發團隊嚟講,佢更似係一套測試框架,用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

  • 重點唔係知識問答,而係代理喺工具使用過程中點樣作取捨
  • 有完整流程,由環境生成、案例建立、軌跡生成,到評分與整體分析
  • 可執行沙盒環境 令測試更貼近真實操作,而唔只係紙上談兵
  • 用 rubric 評分,有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手,或者想比較唔同代理喺價值衝突下嘅表現,呢個專案相當適合。相反,如果你只係想快速部署聊天功能,呢個儲存庫未必直接幫到手,因為佢主要價值在於研究、測試同評估,而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agentic, 北京大學

ToolCUA:電腦代理點樣揀工具先最醒?

tongyi

ToolCUA 是一個面向「電腦代勞」場景的代理系統,目標不是單純模擬人手點擊,而是同時懂得用畫面操作與系統工具完成任務。簡單講,當代理見到桌面程式時,可以選擇按掣、輸入文字、捲動畫面,亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方,是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到,不少模型即使同時擁有 GUI 動作與工具調用能力,仍然會出現判斷混亂:有些幾乎唔用工具,有些又過度依賴工具,結果步驟雖然變少,但任務成功率未必更高。

實際使用上,這個儲存庫較像研究與評估框架,適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作,以及多環境評測程式;如要使用其公開模型,README 有提到 ToolCUA-8B,但整體更偏向研究實驗,而非即裝即用的消費級產品。

重點可概括為:
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例,方便研究比較

從公開資料看,ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料,再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值;如果你想找的是成熟日常助手,現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA

Categories: Agentic, 模型, 視頻模型

WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

Page 1 of 6
1 2 3 6