Agentic Archives - Page 10 of 14

FATE點樣幫AI代理由失敗中學安全

2026 年 5 月 17 日

而家愈來愈多 AI 唔止係聊天，仲會幫你用工具、分步完成任務。不過真正危險嘅地方，往往唔係最後一句回覆，而係中途做過啲乜。FATE 針對嘅正正係呢一類問題：當代理模型喺操作流程中出錯，系統會將失敗過程抽出，再用作之後嘅改進材料。

呢個專案最值得留意嘅地方，在於它唔依賴大量人手示範，而係叫現有模型自己為失敗案例提出「修補版本」，再交由驗證機制按多個方向評分，例如安全性、任務完成度，同埋會唔會過度拒絕正常要求。之後再用篩選後嘅資料微調模型，並配合 PFPO 去平衡安全與實用性。

如果你想理解點樣上手，較合理嘅方式係先由論文、專案頁面同結果表開始睇，因為目前公開內容主要集中喺方法與評測表現。它唔係一般即裝即用嘅應用程式，更適合當作研究框架，畀有做代理系統、安全評估或模型訓練嘅人參考。

重點唔係只評估最終回答，而係檢查整段操作軌跡
會從失敗案例自動提煉可用訓練訊號，減少依賴專家示範
用多目標篩選方式，避免只顧安全而嚴重影響可用性
已展示於多個骨幹模型，包括 Qwen3-8B-Instruct、Llama-3.1-8B-Instruct、Ministral-3-8B-Instruct、Gemma-3-12B-it、Phi-4-reasoning

由結果睇，FATE 喺 AgentDojo 同 AgentHarm 上，對多款模型都帶來更低風險指標，同時保留較好任務表現。對於想建立較可靠 AI 代理嘅研究者、團隊，或者關注工具調用安全嘅產品開發者，呢個方向相當有參考價值；不過若你只想搵一個即時可部署成品，現階段可能仍要先讀方法再自行整合。

網址： https://github.com/YinBo0927/FATE

網址： https://arxiv.org/pdf/2605.11882

Categories: 開源, Agentic, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

2026 年 5 月 17 日

如果你對「會自己搵資料的 AI」有興趣，ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案，而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果，甚至對圖片放大、旋轉或翻轉，再整理證據作判斷。

對初學者來講，可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合，重點係同一套流程可同時用於測試與強化學習；不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題，是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法，是先用監督式訓練教基本動作格式，再用強化學習讓代理在真實互動中調整策略，之後分析操作軌跡，找出行為缺口，再回頭改善下一輪訓練資料。

比較特別的是，它把中途見過的圖片保存成可重用參照，之後可以再裁切、檢視或做視覺搜尋，唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要，亦比只靠文字搜尋的代理更貼近真實使用情境。

支援多種工具流程：網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
著重保留中間圖像證據，方便後續步驟重用
訓練方式結合 SFT 與 RL，並用操作紀錄反推資料改進方向
已展示在 Qwen3-VL-8B 與 Qwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統，或者關心模型如何可靠地「邊找邊想」，這個專案會有參考價值。對一般讀者而言，它亦提供了一個清楚例子：未來較實用的 AI，未必只係更大模型，而係更懂得在圖像與文字之間有條理地找證據。

網址： https://github.com/JoeYing1019/ODE

網址： https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

openclaw 最新版本重點速覽

2026 年 5 月 15 日

今次 openclaw 2026.5.12 發佈內容，重點放在模組拆分同安裝體驗優化。根據版本說明，Amazon Bedrock 以及 Bedrock Mantle 相關 provider 套件已由核心程式分離，代表一般核心安裝唔再自動拉入 AWS SDK 依賴，只有真正需要這些 provider 時先另外安裝。

實際使用上，呢個改動對開發者同部署人員最直接。若你只用核心功能，可以保留較精簡環境；如果要接入 Amazon Bedrock，先再安裝對應 provider 套件，令依賴管理更清楚，亦較容易控制映像大小、安裝時間同維護成本。

呢個專案今次最明顯的創新，不是新增大量表面功能，而是把供應商整合能力改成按需載入思路。對插件系統來說，這類 externalize 做法通常有助減少不必要耦合，讓核心與外掛邊界更清晰，對長遠擴充同版本管理較有利。

受惠工作主要包括雲端整合、平台維運、DevOps、企業內部工具開發，以及需要多環境部署的團隊。尤其當不同專案未必都用 AWS 服務時，拆分 provider 可避免每個安裝都承受相同依賴負擔。

核心安裝不再預設包含 AWS SDK 依賴
Amazon Bedrock 與相關 provider 改為獨立安裝
更適合按需要啟用外掛與雲端整合
有助簡化部署、維護與套件管理

性能與評估方面，頁面可見資訊未提供具體跑分、延遲或資源使用數據，因此較穩妥的結論是：這次更新較偏向架構與依賴優化，預期可改善安裝體積與管理效率，但實際效能提升幅度仍要視部署方式同使用的 provider 組合而定。

網址： https://github.com/openclaw/openclaw/releases/tag/v2026.5.12

Categories: 開源, Agentic, OpenClaw

Agent-ValueBench：AI 代理有冇價值觀？這個基準想測清楚

2026 年 5 月 13 日

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講，佢唔只睇模型答得啱唔啱，而係觀察一個會用工具嘅語言模型代理，喺有衝突嘅情境入面，實際行動會偏向邊一種價值。

呢個專案較特別嘅地方，係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境，同 4,335 個價值衝突任務；每個案例都會定義任務、可用工具、執行環境，同評分規則，令比較唔再停留喺主觀印象。

實際使用上，研究者可以先用現成案例同環境，令代理喺指定任務中運行，再記錄成條行為軌跡，之後用已儲存嘅 rubric 去評分，分析代理較支持邊一方價值。對一般開發團隊嚟講，佢更似係一套測試框架，用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

重點唔係知識問答，而係代理喺工具使用過程中點樣作取捨
有完整流程，由環境生成、案例建立、軌跡生成，到評分與整體分析
可執行沙盒環境 令測試更貼近真實操作，而唔只係紙上談兵
用 rubric 評分，有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手，或者想比較唔同代理喺價值衝突下嘅表現，呢個專案相當適合。相反，如果你只係想快速部署聊天功能，呢個儲存庫未必直接幫到手，因為佢主要價值在於研究、測試同評估，而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agentic, 北京大學

ToolCUA：電腦代理點樣揀工具先最醒？

2026 年 5 月 13 日

ToolCUA 是一個面向「電腦代勞」場景的代理系統，目標不是單純模擬人手點擊，而是同時懂得用畫面操作與系統工具完成任務。簡單講，當代理見到桌面程式時，可以選擇按掣、輸入文字、捲動畫面，亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方，是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到，不少模型即使同時擁有 GUI 動作與工具調用能力，仍然會出現判斷混亂：有些幾乎唔用工具，有些又過度依賴工具，結果步驟雖然變少，但任務成功率未必更高。

實際使用上，這個儲存庫較像研究與評估框架，適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作，以及多環境評測程式；如要使用其公開模型，README 有提到 ToolCUA-8B，但整體更偏向研究實驗，而非即裝即用的消費級產品。

重點可概括為：
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例，方便研究比較

從公開資料看，ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料，再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值；如果你想找的是成熟日常助手，現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA

Categories: Agentic, 模型, 視頻模型

WorldReasonBench：AI 識唔識用影片推演真實世界？

2026 年 5 月 13 日

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準，重點唔係畫面是否逼真，而係模型能否根據起始狀態同事件，合理推演之後個世界會點變。簡單講，即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例，覆蓋 4 個推理面向同 22 個細分類，並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對，令評分唔只靠單一數字，而係更貼近人點樣判斷一段影片合唔合理。

實際使用上，研究團隊或開發者可以用佢去壓力測試自家模型：先生成影片，再由視覺語言模型回答片中問題，之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR，同時考慮答對程度同動態推理質素，另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測，呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說，它關心物理、社會、邏輯同資訊層面有冇前後一致，呢點對真正需要可靠推演嘅應用特別重要。

不只評畫面：核心係測試世界演化是否合理
評估方法較完整：結合問答、判分同偏好配對
指標較實用：可同時睇準確度與推理穩定性
適合比較模型：方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型，或者想知道一個生成器係咪只會「整靚片」，呢個基準幾值得留意。對一般用家嚟講，它亦提供一個更貼地嘅角度：一段 AI 影片可信唔可信，未必只靠觀感，而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

X-OmniClaw：讓手機自己跨App辦事的AI代理

2026 年 5 月 13 日

X-OmniClaw是一個運行在Android裝置上的多模態代理系統，重點不是停留在模擬器或虛擬環境，而是直接對真實手機畫面作判斷，再執行點擊、輸入、開啟App等操作。對一般用家來說，可以把它理解為一個會「睇畫面、記住進度、自己禁掣」的手機助手。

實際使用上，它適合處理需要跨App完成的多步驟任務，例如根據畫面內容作搜尋、在不同應用之間切換，或跟隨語音與視覺資訊持續執行工作。專案資料顯示，它能串流顯示每一步動作、工具呼叫與結果，亦會累積模型使用成本，方便觀察整個流程是否合理。

這個專案較有新意的地方，在於把感知、記憶、行動放在同一套手機原生流程內。它不只讀取UI狀態，亦可結合真實世界影像與音訊；再配合工作記憶與較長期的個人化記憶，令任務可以延續，不需要每一步都由頭理解。

另外，X-OmniClaw似乎特別重視穩定性，而不只是「做到一次」。例如多輪任務有預算控制與迴圈偵測，失敗後會嘗試收斂並繼續執行；裝置工具亦加入防誤觸與穩定性保護，這些設計對真機操作尤其重要。

直接在實體Android手機上運作，不依賴虛擬環境
可整合畫面、鏡頭、語音作任務理解
內建統一裝置工具，支援點擊、輸入、截圖、啟動App等操作
有多步驟任務控制、可觀察執行過程與成本統計

如果你的場景是手機自動化、智能助理、跨App工作流，甚至需要結合現場鏡頭資訊去決策，X-OmniClaw會比一般只看文字指令的方案更有參考價值。不過從公開資料看，它較偏研究與系統架構展示，真正落地時仍要留意裝置相容性、任務複雜度，以及背後雲端推理的依賴。

Source: https://github.com/OPPO-Mente-Lab/X-OmniClaw

Categories: 開源, Agentic, 框架

DecodingTrust-Agent：測試 AI 代理可信度的評估框架

2026 年 5 月 11 日

Repository image for AI-secure/DecodingTrust-Agent

DecodingTrust-Agent Arena 是一個用來評估 AI 代理可信度的框架，重點不是幫你做任務，而是觀察代理在真實感較高的工作流程中會否出錯、受誘惑或被惡意引導。它支援不同領域，例如 CRM、workflow automation 等，方便研究人員或產品團隊做一致比較。

實際使用時，使用者通常會提供一個 JSONL 任務檔，再透過命令列啟動評估；也可以針對單一任務資料夾直接測試。系統會按任務類型讀入 benign 或 malicious 場景，並可選擇略過環境設定、MCP 啟動或評分步驟，令測試流程更有彈性。

這個專案的主要創新，在於它不只看 AI 會否完成任務，還把威脅模型與風險類別納入設計，令「可信度」變成可被拆解和量度的指標。對比一般只測準確率的工具，這種做法更貼近 AI 代理在企業環境中可能遇到的安全和操控風險。

最適合的應用場景包括 AI 代理研究、內部安全評估、以及想驗證自動化工作流是否穩定的團隊。若你正在比較不同模型在相同任務下的表現，它也很實用；文件中示例使用了 gpt-4o，但框架本身看來主要是透過 CLI 參數切換模型。

重點摘要：
– 可評估 AI 代理在多個業務場景下的可信度
– 支援 benign 與 malicious 任務設計
– 以 JSONL 任務檔管理測試流程，方便批量評估
– 可按需要跳過部分步驟，適合不同測試環境
– 特別適合研究安全、風險與抗操控能力

Source: https://github.com/AI-secure/DecodingTrust-Agent

Categories: 開源, Agentic

4DThinker：讓影片理解動態空間的4D視覺腦

2026 年 5 月 11 日

4DThinker 是一個面向研究用途的視覺語言模型框架，重點不是單純描述影片內容，而是讓模型從單鏡頭影片理解物件如何移動、互相影響，以及場景隨時間怎樣變化。簡單講，它想解決「模型見到影片，能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程，而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式，以及前處理所需資源；若要重現效果，需準備影片資料、SAM3 checkpoint，並以 Qwen2.5-VL-3B-Instruct 作為基礎模型，部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新，在於它不再只靠文字一步步「講出」推理過程，而是加入所謂 4D latent imagery，讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調，以及 4DRL 強化學習，方向上是希望把動態視覺理解能力直接學進模型本身，而非額外串接複雜幾何模組。

重點摘要：
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊，而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解，或者想提升模型對「之後會怎樣」的判斷，4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析，它未必是最直接的選擇，因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agentic, 庫, 模型, 視覺模型, 中國, 清華大學

DCI-Agent-Lite：把知識庫交給代理直接翻找，不用 embeddings

2026 年 5 月 10 日

DCI-Agent-Lite是一個面向代理式搜尋的輕量實作，核心概念是讓代理直接操作原始文件，而不是先經過語意檢索器或向量資料庫。對有本機資料、內部文件或持續變動語料的人來說，這個方向很實際，因為不必先建索引，也不用把文件送到託管式檢索服務。

實際使用上，它更像是一個能讀檔、查字串、逐步驗證線索的研究助手。代理會用終端工具在本地語料中搜尋、檢視上下文、交叉比對，再整理答案；若要跑預設的 OpenAI 路線，專案資訊有提到需要 OpenAI API KEY，並點名可搭配 GPT-5.4-nano。

這個專案最有意思的創新，不只是「不用 embeddings」，而是把檢索介面改成更高解析度的檔案互動。論文脈絡指出，代理能把多個簡單搜尋動作串接起來，處理精確詞彙限制、稀疏線索組合與局部上下文驗證，減少傳統 top-k 檢索過早過濾證據的問題。

從公開描述來看，它的定位很清楚：建立在精簡的代理框架與 bash 工具之上，系統結構小、可改造性高，但仍瞄準長流程研究任務。專案也宣稱在 13 個基準上優於多種檢索式基線，涵蓋知識密集問答、代理搜尋與 IR ranking，不過實際效果仍會受語料品質、工具配置與模型能力影響。

適合私有知識庫：文件可留在本地，不必依賴外部檢索服務
零索引啟動：不需預先建立向量庫或離線 embedding 流程
高解析度搜尋：可直接對原始檔做精準查找與上下文確認
可塑性高：工具鏈簡單，較容易理解、調整與擴充

如果你的場景是企業內部文件探索、研究資料整理、個人知識庫深查，DCI-Agent-Lite相當值得關注。相較傳統 RAG，它未必在所有大型靜態語料都占優，但在資料常更新、需要細部核對證據的任務上，這種直接互動式檢索顯得更貼近真正的研究工作流程。

Source: https://github.com/DCI-Agent/DCI-Agent-Lite

Categories: 開源, Agentic

Page 10 of 14

« Previous 1 … 8 9 10 11 12 … 14 Next »