Skill 技能 Archives

AgenticDataBench：數據代理基準點樣睇

2026 年 7 月 3 日

AgenticDataBench 是一個用來評測 data agents 的 benchmark，而唔係直接幫人做分析的模型或應用。它要解決的是：LLM-based data agents 能否穩定完成 data science workflow，並且用可比較、可重現的方式量度表現。

現有做法多數只用零散任務、單一資料集，或者只看最終答案，較難知道代理究竟卡在哪個步驟。這個項目改用 344 個任務、15 個領域，再配合細緻的 skill labels 同 ground-truth，將問題拆成可重用的 data science skills，例如缺失值處理一類操作模式，令評測唔只得總分，仲可以見到技能層面的強弱。

部署同理解方式都幾直接：資料集可由 HuggingFace 下載後放入 testbed/datasets/，任務、gold 標註同結果目錄已經分開，另外保留咗 98 個 private test tasks 維持 leaderboard 的可信度。README 亦提到需要設定 API keys，反映它主要係一個開放測試台，方便用不同 agent harness 跑同一批任務，而唔係單機即開即用的終端工具。

同類 benchmark 相比，它的取向唔係追求最少題目下的快速排行，而係強調真實性、技能覆蓋率同冗餘控制。項目一方面收錄真實 B2B fintech use cases，另一方面用 skill-aligned hierarchical clustering 同系統化生成流程補足缺少真實任務的領域，這種做法的代價是建置與維護較重，但換來更完整的比較基線。

覆蓋 15 個領域，包含真實 B2B fintech 任務
提供 tasks、ground-truth、skills 同 results 結構化內容
支援比較不同 agent harness，如 Smolagents、DA-Agent、Claude Code、CodeX
已列出 Qwen3.5-397B-A17B、Kimi-K2.5、Claude Sonnet 4.6 的初步實驗

這個項目最適合做 data agent 研發、模型選型同內部驗證的團隊，也適合研究人員用來檢查代理在哪類 data skills 失分。性能資訊目前以 leaderboard 結果為主，重點不只是 accuracy，仲包括 skill-level insight；相關模型至少包括 Qwen3.5-397B-A17B、Kimi-K2.5 同 Claude Sonnet 4.6。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Anthropic, 清華大學, Dataset 數據集, Skill 技能

AgentOdyssey：用文字遊戲測試 AI Agent

2026 年 6 月 30 日

AgentOdyssey 是一個用來生成文字遊戲並評測 agent 的開源框架。它主要用來檢查 test-time continual learning agents 能否在互動過程中一邊推理、一邊學新知識，而不只是做一次性答題。

現有不少評測仍沿用「測試時不學習」這種固定範式，任務短、回合少，較難看出 agent 會否忘記事情、會否累積世界知識，或者能否處理長步數目標。AgentOdyssey 的做法是程序化產生 open-ended long-horizon text games，把探索、episodic memory、world knowledge acquisition、skill learning 與 long-horizon planning 放進同一個連續環境內一起觀察。

部署理解上，這個項目已提供 PyPI package、文件與互動示範，也可用 HumanAgent 直接進入遊戲，再換成不同 LLM-based agents 做比較。它的 unified agent interface 依賴繼承式類別來共享 prompt 結構，新增 agent 的門檻相對低，對研究團隊做公平對照尤其重要。

可程序化生成全新世界、角色與劇情，唔係只跑固定題庫
評分不只看遊戲進度，亦會拆開觀察記憶、探索、行動多樣性與成本
支援多種 agent paradigms，比較時較容易控制提示格式差異
結果重點很清楚：更強 base models 通常更好，但頂尖 agent 仍明顯落後人類

這個項目較適合做 agent 研究、benchmark 建立、記憶模組測試，或者長流程任務設計；一般內容生成或聊天機械人團隊未必會直接受惠。已公開的重點結果亦指出 short-term memory 對多種 agent paradigms 都有幫助，反映這個框架不只是出分工具，也能用來找出 agent 失效的位置與改良方向。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Skill 技能

用 vision-language-action 把人類操作轉移到機械人的雙手

2026 年 6 月 30 日

人類操作數據廉價、豐富且多樣化，使其成為擴展機器人學習規範最有前景的資源之一。然而，將人類技能遷移到機器人仍然困難重重：以往的大多數工作都將人類視為另一種雙手6自由度（6DoF）的具身模型，這存在兩個問題：手部姿態估計存在噪聲，並且人類手指的接觸模式與並聯機械臂的接觸模式存在根本差異，導致手腕旋轉與機械臂操作在語義上不一致。我們認為，從人類資料中學習包含旋轉的動作訊號並非最優方案，因此提出了一種橋接動作表示：在初始頭部-攝影機座標系內的相對手腕平移，這是一個人類和機器人共享的動作空間。

如何把人類操作資料轉移到使用 parallel grippers 的雙手機械人，重點方法是用「relative wrist translation within the initial head-camera frame」作為 bridging action representation。

作者認為把人類直接當成另一種 bi-manual 6DoF embodiment 並不理想，因為手部姿態估計本身有噪聲，而且人手手指接觸模式與 parallel gripper 有本質差異。與其硬學包含旋轉的動作訊號，這項工作改為只保留更容易跨人類與機械人共享的平移資訊，減少 embodiment mismatch。

作者建立了一個 π0-like vision-language-action model，配合 interleaved action tokens 與 attention masking，處理不同 embodiment 可能缺少某些動作成分的問題。這種設計的意義，在於模型不需要假設人與機械人擁有完全相同的控制維度，較適合跨載體技能遷移。

以 wrist translation 取代完整 6DoF human actions，降低人手到夾爪的表示落差
採用 vision-language-action 架構，並加入 interleaved action tokens 與 attention masking
在 novel bi-manual manipulation tasks 上，較 noisy 6DoF human actions 有更有效的知識轉移
效果會隨 human data 數量增加而提升，說明方法具備一定擴展性

這項內容較接近方法論與表示學習分析，而不是部署指南。頁面沒有列出推論框架、硬體需求、v2 檔案更新、chat template 或 MTP draft speculation 等資訊；能確定的是，它針對 Robotic 技能轉移提出一種更貼近夾爪機械人控制需求的動作抽象，適合關注 imitation learning、cross-embodiment transfer 與雙手操作研究的人閱讀。

項目主頁 · Paper

Categories: 香港大學, 字節跳動, 多模態模型, 視覺模型, Robotic, Skill 技能

SkillHarness：幫 CUA 學得更安全

2026 年 6 月 25 日

Repository image for YurunChen/SkillHarness

這是一個研究原型，現時 GitHub 儲存庫主要提供 SkillHarness 論文 PDF。它要解決的是 Computer-Use Agents（CUAs）在動態電腦介面中學習與重用技能時，容易受 prompt injections、彈窗與環境變化影響，令已學到的技能變得危險或不穩定。

現有做法多數沿用「從成功軌跡抽取可重用技能」這個範式，常見表達形式包括函式或 API，但作者認為這類方法預設環境是 static and safe。SkillHarness 改用 safety-constrained interaction process 去看待技能的學習與使用，核心不是多學幾個技能，而是先判斷哪些技能在當下情境仍然安全。

論文提出兩個辨識度很高的設計：一是 skill boundary，用 multi-source supervision signals 從互動軌跡中找出 safe skills；二是 selective skill reuse，按當前情境拆解任務，只啟動部分技能，而不是整包照搬。這種取向的代價，是系統設計會比單純收集成功軌跡更複雜，但換來的是在動態環境下更穩定的行為。

現有儲存庫未附程式碼，所以暫時不能直接部署或重跑實驗；較合理的理解方式，是先把它當成一套 CUA 安全技能框架來讀。若之後作者釋出實作，最需要觀察的會是它怎樣接入代理的軌跡資料、怎樣建立 safety constraints，以及能否在 OSWorld 一類電腦操作基準以外維持效果。

類型屬於框架／研究論文項目，重點在安全技能學習，不是即裝即用工具
主要批評舊方法依賴 static and safe environment 假設，放到動態場景會學到不安全技能
論文聲稱 learned skills 的 unsafe rate 降低 57.1%，並提升動態環境下的 execution stability
較適合研究 Computer-Use Agents、代理安全、桌面自動化與長流程任務的團隊留意
相關脈絡模型與方法包括 Computer-Use Agents（CUAs）、Voyager、ASI，以及以函式／API 形式封裝技能的路線

GitHub： https://github.com/YurunChen/SkillHarness

Paper： https://arxiv.org/pdf/2606.20636

Categories: 開源, Agentic, API, 工具, 安全, 庫, 模型, Skill 技能, 框架

RATs 用多代理玩出機械人技能庫

2026 年 6 月 21 日

RATs pipeline overview — click to play the video

現有機械人代理很多時仍然沿用 task-driven 路線：先收到明確指令，再透過 Code-as-Policy 產生可執行程式來完成任務。RATs 則批評這種做法太依賴外部任務，令可重用技能只會在被要求時才出現，所以它提出一個多代理 Code-as-Policy 系統，先用 free-form play 自行發明練習目標，再把成功行為整理成技能庫。

這個項目屬於機械人學習框架，要解決的是機械人代理遇到新任務時，欠缺可直接調用的長期技能累積。RATs 分成 Play 與 Evaluation 兩段：前者由 proposer、planner、policy-writer、verifier、failure-diagnoser 幾個 LLM 代理協作，後者把已凍結的技能當成 planner context 重用，而且強調 no gradients、no RL，主要靠 structured natural-language feedback 與 code reuse 學習。

如果你想試這個項目，較適合把它當成研究型系統來跑 benchmark，而不是即裝即用小工具。環境要求包括 Python 3.10、CUDA-capable GPU，並牽涉 LIBERO-PRO、MolmoSpaces、Robosuite 及真實 Franka Panda 流程；比較合理的測試次序，是先看 Play 階段怎樣生成技能，再檢查 Evaluation 階段對 held-out tasks 有沒有改善。

它的創新點，在於把「玩」正式納入 lifelong robot skill learning：不是隨機探索，而是讓代理自己提出可學習任務、逐步驗證中間進度、失敗後再診斷重試，最後把成功執行蒸餾成 reusable skill library。這令技能可在跨環境情境重用，不一定綁死原本訓練場景。

論文給出的結果相當具體：在 LIBERO-PRO 與 MolmoSpaces，play-learned skills 相比 no play 與 random-play baselines 有提升，對 CaP-Agent0 分別高出 20.6 和 17.0 個百分點；把技能直接檢索進其他 inference-time Code-as-Policy agents 的 context，對 Robosuite 與真實世界 transfer 亦分別提升 8.9 和 8.8 點。相關模型與基線主要包括 CaP-X、CaP-Agent0，以及文中使用的 LLM agents 協作流程；若你關心 agentic robotics、技能重用與真機轉移，這個項目很值得細讀。

類型定位：多代理機械人學習框架，核心是 Code-as-Policy 與技能庫重用
方法重點：先 Play 自提任務學技能，再 Evaluation 把技能注入 planner context
技術取向：不靠 gradients 或 RL，主要依賴自然語言回饋、程式修正與 code reuse
適合場景：研究 embodied agents、robot skill library、cross-environment transfer 的團隊
已提到的相關系統：CaP-X、CaP-Agent0、LIBERO-PRO、MolmoSpaces、Robosuite、Franka Panda

GitHub： https://github.com/Playful-RATs/rats

項目： https://playful-rats.github.io/

Categories: 開源, NVIDIA, Agentic, 工具, AI productions, Python, Python NLP, 庫, 模型, 模型訓練, Robotic, 框架, Skill 技能

Ponytail：幫 AI Agent 減少大量的程式碼

2026 年 6 月 18 日

Ponytail 是一個針對 AI Agent 的工具型項目，核心作用不是取代模型，而是替模型加上一套固定判斷規則，令它在寫程式前先問自己：這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接，就是不少 AI Agent 會把簡單任務寫得太重，順手加框架、包裝層、額外抽象，最後程式碼變多、回應變慢，成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶，而是保留必要部分」變成一條清晰階梯：先跳過不需要的東西，再優先用 stdlib、原生平台功能、已安裝依賴，最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效，因為模型常見問題不是完全不懂，而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣，包成可重複套用的規則。

如果你想試它，先找幾類容易被模型寫得過火的小任務，例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示，它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境，亦即它不是綁死單一平台，而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人，這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中，官方列出每項任務程式碼可減少 80% 至 94%，延遲快 3 至 6 倍，成本下降 42% 至 75%。不過這些結果有清楚前提，只能代表特定模型與提示方式下的中位數表現，並非所有模型都一定受惠；倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型，規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度，因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

重點不是生成更多程式，而是限制 AI Agent 只寫任務真正需要的部分
支援多個 Agent 宿主，包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
提供 /ponytail-review、/ponytail-audit、/ponytail-debt 等指令，方便檢查過度工程化
benchmark 數據亮眼，但倉庫已提醒不同模型、提示長度與回合數會影響結果
適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化，讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層，而不是新模型或框架。相關模型與環境方面，倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus，也提到 GPT-5.5，並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力，而是更穩定地避免 AI Agent 過度設計，這個項目有很明確的價值；若你的工作本身需要大量自訂架構與長鏈依賴，它未必會永遠選出你最喜歡的答案，但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub： https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, 庫, 模型, Anthropic, OpenClaw, 框架, Skill 技能

MiniMax Hub：本機優先的多模態創作工作站

2026 年 6 月 17 日

MiniMax Hub 是一個 Multimodal Creative Agent，定位像 AI 創作工作站，不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程，讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載，輸入簡報、文字想法，或直接加入本機素材後，主代理會先理解創作目標，再做 Smart task decomposition，之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型，亦會在關鍵節點收到確認，避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格，之後可重複套用；如果需要，也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說，這類流程重用能力相當實用。

本機優先設計，頁面明確指出 local files stay on your machine
單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
支援資產管理與 batch generation，可一次產出多個版本
代理會自動分解任務，並在關鍵步驟要求人工確認
可把工作流程沉澱成 Skills，逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作，而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果，因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單，只提到會自動匹配最合適模型。

項目： https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

VisualClaw：會進化的視覺代理

2026 年 6 月 17 日

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型，或者一次性工具調用去完成任務；作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升，而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system，夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間，加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建，重點唔係再訓練一個新模型，而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release，收錄 200 個 scenario，要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題，補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy，用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow，再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊，這種接法尤其實用，因為毋須由零重寫整個代理流程。

核心結構清楚：gateway design 加上 pre/post hooks，方便在提示前後插入技能、記憶與評測。
創新位具體：以 hybrid encoding 處理 streaming video，配合 cascaded gate、keyframe context、hot/cold top-k injection，目標是壓低成本而保留關鍵視覺證據。
會累積經驗：self-evolution 會根據失敗回合與成功記憶更新 skill bank，唔係每次都由同一套靜態提示開始。
評測唔只看答對：VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊，更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs（Gemini 3 Flash、GPT-5.2）上，VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%，相對 offline uniform 8 frame baseline 亦再降 25.9%，同時多數設定下準確率有提升。到 VisualClawArena，配合 Codex（GPT-5.5）與 Claude Code（Sonnet 4.6）等 backend，macro accuracy 分別提升 2.9% 同 3.2%；如果你關心的是可插拔代理基建、多模態工作流，或者想為 live vision 與影片任務加上可持續進化能力，這個項目比單純模型包裝器更有研究同落地價值。

GitHub： https://github.com/UCSC-VLAA/VisualClaw

項目： https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, Skill 技能, 框架, 清華大學

last30days-skill：用人氣做 AI 搜尋

2026 年 6 月 17 日

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目，核心做法不是依賴編輯式排序，而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對，整理出近 30 日最受關注的資訊。它要解決的，是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思：不是只看網頁是否存在，而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人，這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力，公開資料已可直接涵蓋 Reddit comments；再加入 API key，便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍，不再偏向音樂影片，較容易抓到訪談、評論與解說內容；YouTube comments 與 TikTok comments 則屬額外選項，因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式，反映它比較重視訊號品質與成本控制，而不是一味堆資料。

以 AI agent-led search engine 形式整合多平台近期討論
免費可用來源包括 Reddit comments，並附 upvote 數據
可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
YouTube transcripts 強化了非音樂內容覆蓋範圍
適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集，這個項目幾適合放入工作流程。它未必提供嚴格學術式評測，現有資訊也未見標準 benchmark 成績，但從來源設計與成本開關來看，方向相當明確：用多平台真實互動訊號，讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter，以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub： https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

ClawTrojan：揭開代理工具的隱藏後門危機

2026 年 6 月 1 日

隨著 LLM 代理開始具備讀寫檔案、呼叫工具的能力，惡意指令不再只藏在當下對話中，而是能被植入工作區，潛伏到日後才發動。ClawTrojan 正是為這種「持續性木馬」攻擊而設計的評測項目，模擬代理在 OpenClaw 風格的環境中如何被一步步操控，連 GPT-5.4 都曾達到 95.5% 的攻擊成功率。

在採用 GPT-5.4 的 OpenClaw 模擬工作空間中，ClawTrojan 的攻擊成功率 (ASR) 高達 95.5%，而現有的單回合提示注入攻擊在同一模型上的 ASR 幾乎為零。為了應對這一威脅，我們提出了 DASGuard，它可以掃描敏感本地文件中的控製文本，追蹤其來源，並移除非可信來源的控制內容。

這個項目解決了傳統單輪防禦的盲點：每一步看似無害，但串連起來就能把不可信文字變成持久控制內容。ClawTrojan 內建範例、步驟標註與可執行的工作區，方便研究者重現攻擊鏈。

配套的 DASGuard 防禦機制是另一亮點。它會掃描敏感本地檔案中的控制類文字，追蹤來源是否可信，並在執行階段阻擋攻擊同時清理已污染的內容。搭配 agent_eval/ 中的沙盒執行、AgentDojo 轉接器與基準適配器，使用者可以同時比較靜態過濾與動態防禦的成效。

這個項目特別適合關注 LLM 代理安全、AI 紅隊演練或企業內部工具防護的團隊。對一般使用者而言，理解它的價值在於：現成的代理並非滴水不漏，部署前需要這類多步驟壓測來找出漏洞。

重點摘要

專注於「多步木馬」場景，補上單輪提示注入防禦的缺口
在 GPT-5.4 上展示 95.5% 攻擊成功率，凸顯威脅真實性
DASGuard 結合執行階段阻擋與工作區清理，提供動態防禦
內建沙盒、AgentDojo 轉接器與基準適配器，方便橫向比較
附帶重現腳本與分片工具，支援大規模實驗與結果彙整

GitHub： https://github.com/RUC-NLPIR/ClawTrojan

Paper： https://arxiv.org/pdf/2605.31042

Categories: 開源, Agentic, 中國, Skill 技能, 框架

Page 1 of 2

1 2 Next »