AgenticDataBench:數據代理基準點樣睇

example

AgenticDataBench 是一個用來評測 data agents 的 benchmark,而唔係直接幫人做分析的模型或應用。它要解決的是:LLM-based data agents 能否穩定完成 data science workflow,並且用可比較、可重現的方式量度表現。

現有做法多數只用零散任務、單一資料集,或者只看最終答案,較難知道代理究竟卡在哪個步驟。這個項目改用 344 個任務、15 個領域,再配合細緻的 skill labels 同 ground-truth,將問題拆成可重用的 data science skills,例如缺失值處理一類操作模式,令評測唔只得總分,仲可以見到技能層面的強弱。

部署同理解方式都幾直接:資料集可由 HuggingFace 下載後放入 testbed/datasets/,任務、gold 標註同結果目錄已經分開,另外保留咗 98 個 private test tasks 維持 leaderboard 的可信度。README 亦提到需要設定 API keys,反映它主要係一個開放測試台,方便用不同 agent harness 跑同一批任務,而唔係單機即開即用的終端工具。

同類 benchmark 相比,它的取向唔係追求最少題目下的快速排行,而係強調真實性、技能覆蓋率同冗餘控制。項目一方面收錄真實 B2B fintech use cases,另一方面用 skill-aligned hierarchical clustering 同系統化生成流程補足缺少真實任務的領域,這種做法的代價是建置與維護較重,但換來更完整的比較基線。

  • 覆蓋 15 個領域,包含真實 B2B fintech 任務
  • 提供 tasks、ground-truth、skills 同 results 結構化內容
  • 支援比較不同 agent harness,如 Smolagents、DA-Agent、Claude Code、CodeX
  • 已列出 Qwen3.5-397B-A17B、Kimi-K2.5、Claude Sonnet 4.6 的初步實驗

這個項目最適合做 data agent 研發、模型選型同內部驗證的團隊,也適合研究人員用來檢查代理在哪類 data skills 失分。性能資訊目前以 leaderboard 結果為主,重點不只是 accuracy,仲包括 skill-level insight;相關模型至少包括 Qwen3.5-397B-A17B、Kimi-K2.5 同 Claude Sonnet 4.6。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Anthropic, 清華大學, Dataset 數據集, Skill 技能

AgentOdyssey:用文字遊戲測試 AI Agent

AgentOdyssey 是一個用來生成文字遊戲並評測 agent 的開源框架。它主要用來檢查 test-time continual learning agents 能否在互動過程中一邊推理、一邊學新知識,而不只是做一次性答題。

現有不少評測仍沿用「測試時不學習」這種固定範式,任務短、回合少,較難看出 agent 會否忘記事情、會否累積世界知識,或者能否處理長步數目標。AgentOdyssey 的做法是程序化產生 open-ended long-horizon text games,把探索、episodic memory、world knowledge acquisition、skill learning 與 long-horizon planning 放進同一個連續環境內一起觀察。

部署理解上,這個項目已提供 PyPI package、文件與互動示範,也可用 HumanAgent 直接進入遊戲,再換成不同 LLM-based agents 做比較。它的 unified agent interface 依賴繼承式類別來共享 prompt 結構,新增 agent 的門檻相對低,對研究團隊做公平對照尤其重要。

  • 可程序化生成全新世界、角色與劇情,唔係只跑固定題庫
  • 評分不只看遊戲進度,亦會拆開觀察記憶、探索、行動多樣性與成本
  • 支援多種 agent paradigms,比較時較容易控制提示格式差異
  • 結果重點很清楚:更強 base models 通常更好,但頂尖 agent 仍明顯落後人類

這個項目較適合做 agent 研究、benchmark 建立、記憶模組測試,或者長流程任務設計;一般內容生成或聊天機械人團隊未必會直接受惠。已公開的重點結果亦指出 short-term memory 對多種 agent paradigms 都有幫助,反映這個框架不只是出分工具,也能用來找出 agent 失效的位置與改良方向。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Skill 技能

用 vision-language-action 把人類操作轉移到機械人的雙手

Hugging Face

人類操作數據廉價、豐富且多樣化,使其成為擴展機器人學習規範最有前景的資源之一。然而,將人類技能遷移到機器人仍然困難重重:以往的大多數工作都將人類視為另一種雙手6自由度(6DoF)的具身模型,這存在兩個問題:手部姿態估計存在噪聲,並且人類手指的接觸模式與並聯機械臂的接觸模式存在根本差異,導致手腕旋轉與機械臂操作在語義上不一致。我們認為,從人類資料中學習包含旋轉的動作訊號並非最優方案,因此提出了一種 橋接動作表示:在初始頭部-攝影機座標系內的相對手腕平移,這是一個人類和機器人共享的動作空間。

如何把人類操作資料轉移到使用 parallel grippers 的雙手機械人,重點方法是用「relative wrist translation within the initial head-camera frame」作為 bridging action representation。

作者認為把人類直接當成另一種 bi-manual 6DoF embodiment 並不理想,因為手部姿態估計本身有噪聲,而且人手手指接觸模式與 parallel gripper 有本質差異。與其硬學包含旋轉的動作訊號,這項工作改為只保留更容易跨人類與機械人共享的平移資訊,減少 embodiment mismatch。

作者建立了一個 π0-like vision-language-action model,配合 interleaved action tokens 與 attention masking,處理不同 embodiment 可能缺少某些動作成分的問題。這種設計的意義,在於模型不需要假設人與機械人擁有完全相同的控制維度,較適合跨載體技能遷移。

  • 以 wrist translation 取代完整 6DoF human actions,降低人手到夾爪的表示落差
  • 採用 vision-language-action 架構,並加入 interleaved action tokens 與 attention masking
  • 在 novel bi-manual manipulation tasks 上,較 noisy 6DoF human actions 有更有效的知識轉移
  • 效果會隨 human data 數量增加而提升,說明方法具備一定擴展性

這項內容較接近方法論與表示學習分析,而不是部署指南。頁面沒有列出推論框架、硬體需求、v2 檔案更新、chat template 或 MTP draft speculation 等資訊;能確定的是,它針對 Robotic 技能轉移提出一種更貼近夾爪機械人控制需求的動作抽象,適合關注 imitation learning、cross-embodiment transfer 與雙手操作研究的人閱讀。

項目主頁 · Paper

Categories: 香港大學, 字節跳動, 多模態模型, 視覺模型, Robotic, Skill 技能

SkillHarness:幫 CUA 學得更安全

Repository image for YurunChen/SkillHarness

這是一個研究原型,現時 GitHub 儲存庫主要提供 SkillHarness 論文 PDF。它要解決的是 Computer-Use Agents(CUAs)在動態電腦介面中學習與重用技能時,容易受 prompt injections、彈窗與環境變化影響,令已學到的技能變得危險或不穩定。

現有做法多數沿用「從成功軌跡抽取可重用技能」這個範式,常見表達形式包括函式或 API,但作者認為這類方法預設環境是 static and safe。SkillHarness 改用 safety-constrained interaction process 去看待技能的學習與使用,核心不是多學幾個技能,而是先判斷哪些技能在當下情境仍然安全。

論文提出兩個辨識度很高的設計:一是 skill boundary,用 multi-source supervision signals 從互動軌跡中找出 safe skills;二是 selective skill reuse,按當前情境拆解任務,只啟動部分技能,而不是整包照搬。這種取向的代價,是系統設計會比單純收集成功軌跡更複雜,但換來的是在動態環境下更穩定的行為。

現有儲存庫未附程式碼,所以暫時不能直接部署或重跑實驗;較合理的理解方式,是先把它當成一套 CUA 安全技能框架來讀。若之後作者釋出實作,最需要觀察的會是它怎樣接入代理的軌跡資料、怎樣建立 safety constraints,以及能否在 OSWorld 一類電腦操作基準以外維持效果。

  • 類型屬於框架/研究論文項目,重點在安全技能學習,不是即裝即用工具
  • 主要批評舊方法依賴 static and safe environment 假設,放到動態場景會學到不安全技能
  • 論文聲稱 learned skills 的 unsafe rate 降低 57.1%,並提升動態環境下的 execution stability
  • 較適合研究 Computer-Use Agents、代理安全、桌面自動化與長流程任務的團隊留意
  • 相關脈絡模型與方法包括 Computer-Use Agents(CUAs)、Voyager、ASI,以及以函式/API 形式封裝技能的路線

GitHub: https://github.com/YurunChen/SkillHarness

Paper: https://arxiv.org/pdf/2606.20636

Categories: 開源, Agentic, API, 工具, 安全, , 模型, Skill 技能, 框架

RATs 用多代理玩出機械人技能庫

RATs pipeline overview — click to play the video

現有機械人代理很多時仍然沿用 task-driven 路線:先收到明確指令,再透過 Code-as-Policy 產生可執行程式來完成任務。RATs 則批評這種做法太依賴外部任務,令可重用技能只會在被要求時才出現,所以它提出一個多代理 Code-as-Policy 系統,先用 free-form play 自行發明練習目標,再把成功行為整理成技能庫。

這個項目屬於機械人學習框架,要解決的是機械人代理遇到新任務時,欠缺可直接調用的長期技能累積。RATs 分成 Play 與 Evaluation 兩段:前者由 proposer、planner、policy-writer、verifier、failure-diagnoser 幾個 LLM 代理協作,後者把已凍結的技能當成 planner context 重用,而且強調 no gradients、no RL,主要靠 structured natural-language feedback 與 code reuse 學習。

如果你想試這個項目,較適合把它當成研究型系統來跑 benchmark,而不是即裝即用小工具。環境要求包括 Python 3.10、CUDA-capable GPU,並牽涉 LIBERO-PRO、MolmoSpaces、Robosuite 及真實 Franka Panda 流程;比較合理的測試次序,是先看 Play 階段怎樣生成技能,再檢查 Evaluation 階段對 held-out tasks 有沒有改善。

它的創新點,在於把「玩」正式納入 lifelong robot skill learning:不是隨機探索,而是讓代理自己提出可學習任務、逐步驗證中間進度、失敗後再診斷重試,最後把成功執行蒸餾成 reusable skill library。這令技能可在跨環境情境重用,不一定綁死原本訓練場景。

論文給出的結果相當具體:在 LIBERO-PRO 與 MolmoSpaces,play-learned skills 相比 no play 與 random-play baselines 有提升,對 CaP-Agent0 分別高出 20.6 和 17.0 個百分點;把技能直接檢索進其他 inference-time Code-as-Policy agents 的 context,對 Robosuite 與真實世界 transfer 亦分別提升 8.9 和 8.8 點。相關模型與基線主要包括 CaP-X、CaP-Agent0,以及文中使用的 LLM agents 協作流程;若你關心 agentic robotics、技能重用與真機轉移,這個項目很值得細讀。

  • 類型定位:多代理機械人學習框架,核心是 Code-as-Policy 與技能庫重用
  • 方法重點:先 Play 自提任務學技能,再 Evaluation 把技能注入 planner context
  • 技術取向:不靠 gradients 或 RL,主要依賴自然語言回饋、程式修正與 code reuse
  • 適合場景:研究 embodied agents、robot skill library、cross-environment transfer 的團隊
  • 已提到的相關系統:CaP-X、CaP-Agent0、LIBERO-PRO、MolmoSpaces、Robosuite、Franka Panda

GitHub: https://github.com/Playful-RATs/rats

項目: https://playful-rats.github.io/

Categories: 開源, NVIDIA, Agentic, 工具, AI productions, Python, Python NLP, , 模型, 模型訓練, Robotic, 框架, Skill 技能

Ponytail:幫 AI Agent 減少大量的程式碼

Ponytail, the lazy senior dev

Ponytail 是一個針對 AI Agent 的工具型項目,核心作用不是取代模型,而是替模型加上一套固定判斷規則,令它在寫程式前先問自己:這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接,就是不少 AI Agent 會把簡單任務寫得太重,順手加框架、包裝層、額外抽象,最後程式碼變多、回應變慢,成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶,而是保留必要部分」變成一條清晰階梯:先跳過不需要的東西,再優先用 stdlib、原生平台功能、已安裝依賴,最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效,因為模型常見問題不是完全不懂,而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣,包成可重複套用的規則。

如果你想試它,先找幾類容易被模型寫得過火的小任務,例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示,它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境,亦即它不是綁死單一平台,而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人,這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中,官方列出每項任務程式碼可減少 80% 至 94%,延遲快 3 至 6 倍,成本下降 42% 至 75%。不過這些結果有清楚前提,只能代表特定模型與提示方式下的中位數表現,並非所有模型都一定受惠;倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型,規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度,因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

  • 重點不是生成更多程式,而是限制 AI Agent 只寫任務真正需要的部分
  • 支援多個 Agent 宿主,包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
  • 提供 /ponytail-review/ponytail-audit/ponytail-debt 等指令,方便檢查過度工程化
  • benchmark 數據亮眼,但倉庫已提醒不同模型、提示長度與回合數會影響結果
  • 適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化,讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層,而不是新模型或框架。相關模型與環境方面,倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus,也提到 GPT-5.5,並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力,而是更穩定地避免 AI Agent 過度設計,這個項目有很明確的價值;若你的工作本身需要大量自訂架構與長鏈依賴,它未必會永遠選出你最喜歡的答案,但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub: https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, , 模型, Anthropic, OpenClaw, 框架, Skill 技能

MiniMax Hub:本機優先的多模態創作工作站

MiniMax Hub

MiniMax Hub 是一個 Multimodal Creative Agent,定位像 AI 創作工作站,不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程,讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載,輸入簡報、文字想法,或直接加入本機素材後,主代理會先理解創作目標,再做 Smart task decomposition,之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型,亦會在關鍵節點收到確認,避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格,之後可重複套用;如果需要,也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說,這類流程重用能力相當實用。

  • 本機優先設計,頁面明確指出 local files stay on your machine
  • 單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
  • 支援資產管理與 batch generation,可一次產出多個版本
  • 代理會自動分解任務,並在關鍵步驟要求人工確認
  • 可把工作流程沉澱成 Skills,逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作,而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果,因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單,只提到會自動匹配最合適模型。

項目: https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

VisualClaw:會進化的視覺代理

VisualClaw icon

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型,或者一次性工具調用去完成任務;作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升,而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system,夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間,加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建,重點唔係再訓練一個新模型,而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release,收錄 200 個 scenario,要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題,補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy,用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow,再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊,這種接法尤其實用,因為毋須由零重寫整個代理流程。

  • 核心結構清楚:gateway design 加上 pre/post hooks,方便在提示前後插入技能、記憶與評測。
  • 創新位具體:以 hybrid encoding 處理 streaming video,配合 cascaded gate、keyframe context、hot/cold top-k injection,目標是壓低成本而保留關鍵視覺證據。
  • 會累積經驗:self-evolution 會根據失敗回合與成功記憶更新 skill bank,唔係每次都由同一套靜態提示開始。
  • 評測唔只看答對:VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊,更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs(Gemini 3 Flash、GPT-5.2)上,VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%,相對 offline uniform 8 frame baseline 亦再降 25.9%,同時多數設定下準確率有提升。到 VisualClawArena,配合 Codex(GPT-5.5)與 Claude Code(Sonnet 4.6)等 backend,macro accuracy 分別提升 2.9% 同 3.2%;如果你關心的是可插拔代理基建、多模態工作流,或者想為 live vision 與影片任務加上可持續進化能力,這個項目比單純模型包裝器更有研究同落地價值。

GitHub: https://github.com/UCSC-VLAA/VisualClaw

項目: https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, Skill 技能, 框架, 清華大學

last30days-skill:用人氣做 AI 搜尋

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目,核心做法不是依賴編輯式排序,而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對,整理出近 30 日最受關注的資訊。它要解決的,是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思:不是只看網頁是否存在,而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人,這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力,公開資料已可直接涵蓋 Reddit comments;再加入 API key,便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍,不再偏向音樂影片,較容易抓到訪談、評論與解說內容;YouTube comments 與 TikTok comments 則屬額外選項,因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式,反映它比較重視訊號品質與成本控制,而不是一味堆資料。

  • AI agent-led search engine 形式整合多平台近期討論
  • 免費可用來源包括 Reddit comments,並附 upvote 數據
  • 可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
  • YouTube transcripts 強化了非音樂內容覆蓋範圍
  • 適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集,這個項目幾適合放入工作流程。它未必提供嚴格學術式評測,現有資訊也未見標準 benchmark 成績,但從來源設計與成本開關來看,方向相當明確:用多平台真實互動訊號,讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter,以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub: https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

ClawTrojan:揭開代理工具的隱藏後門危機

ClawTrojan benchmark overview

隨著 LLM 代理開始具備讀寫檔案、呼叫工具的能力,惡意指令不再只藏在當下對話中,而是能被植入工作區,潛伏到日後才發動。ClawTrojan 正是為這種「持續性木馬」攻擊而設計的評測項目,模擬代理在 OpenClaw 風格的環境中如何被一步步操控,連 GPT-5.4 都曾達到 95.5% 的攻擊成功率。

在採用 GPT-5.4 的 OpenClaw 模擬工作空間中,ClawTrojan 的攻擊成功率 (ASR) 高達 95.5%,而現有的單回合提示注入攻擊在同一模型上的 ASR 幾乎為零。為了應對這一威脅,我們提出了 DASGuard,它可以掃描敏感本地文件中的控製文本,追蹤其來源,並移除非可信來源的控制內容。

這個項目解決了傳統單輪防禦的盲點:每一步看似無害,但串連起來就能把不可信文字變成持久控制內容。ClawTrojan 內建範例、步驟標註與可執行的工作區,方便研究者重現攻擊鏈。

配套的 DASGuard 防禦機制是另一亮點。它會掃描敏感本地檔案中的控制類文字,追蹤來源是否可信,並在執行階段阻擋攻擊同時清理已污染的內容。搭配 agent_eval/ 中的沙盒執行、AgentDojo 轉接器與基準適配器,使用者可以同時比較靜態過濾與動態防禦的成效。

這個項目特別適合關注 LLM 代理安全、AI 紅隊演練或企業內部工具防護的團隊。對一般使用者而言,理解它的價值在於:現成的代理並非滴水不漏,部署前需要這類多步驟壓測來找出漏洞。

重點摘要

  • 專注於「多步木馬」場景,補上單輪提示注入防禦的缺口
  • 在 GPT-5.4 上展示 95.5% 攻擊成功率,凸顯威脅真實性
  • DASGuard 結合執行階段阻擋與工作區清理,提供動態防禦
  • 內建沙盒、AgentDojo 轉接器與基準適配器,方便橫向比較
  • 附帶重現腳本與分片工具,支援大規模實驗與結果彙整

GitHub: https://github.com/RUC-NLPIR/ClawTrojan

Paper: https://arxiv.org/pdf/2605.31042

Categories: 開源, Agentic, 中國, Skill 技能, 框架

Page 1 of 2
1 2