Ponytail:幫 AI Agent 減少大量的程式碼

Ponytail, the lazy senior dev

Ponytail 是一個針對 AI Agent 的工具型項目,核心作用不是取代模型,而是替模型加上一套固定判斷規則,令它在寫程式前先問自己:這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接,就是不少 AI Agent 會把簡單任務寫得太重,順手加框架、包裝層、額外抽象,最後程式碼變多、回應變慢,成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶,而是保留必要部分」變成一條清晰階梯:先跳過不需要的東西,再優先用 stdlib、原生平台功能、已安裝依賴,最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效,因為模型常見問題不是完全不懂,而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣,包成可重複套用的規則。

如果你想試它,先找幾類容易被模型寫得過火的小任務,例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示,它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境,亦即它不是綁死單一平台,而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人,這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中,官方列出每項任務程式碼可減少 80% 至 94%,延遲快 3 至 6 倍,成本下降 42% 至 75%。不過這些結果有清楚前提,只能代表特定模型與提示方式下的中位數表現,並非所有模型都一定受惠;倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型,規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度,因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

  • 重點不是生成更多程式,而是限制 AI Agent 只寫任務真正需要的部分
  • 支援多個 Agent 宿主,包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
  • 提供 /ponytail-review/ponytail-audit/ponytail-debt 等指令,方便檢查過度工程化
  • benchmark 數據亮眼,但倉庫已提醒不同模型、提示長度與回合數會影響結果
  • 適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化,讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層,而不是新模型或框架。相關模型與環境方面,倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus,也提到 GPT-5.5,並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力,而是更穩定地避免 AI Agent 過度設計,這個項目有很明確的價值;若你的工作本身需要大量自訂架構與長鏈依賴,它未必會永遠選出你最喜歡的答案,但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub: https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, , 模型, Anthropic, OpenClaw, Skill 技能, 框架

VisualClaw:會進化的視覺代理

VisualClaw icon

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型,或者一次性工具調用去完成任務;作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升,而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system,夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間,加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建,重點唔係再訓練一個新模型,而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release,收錄 200 個 scenario,要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題,補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy,用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow,再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊,這種接法尤其實用,因為毋須由零重寫整個代理流程。

  • 核心結構清楚:gateway design 加上 pre/post hooks,方便在提示前後插入技能、記憶與評測。
  • 創新位具體:以 hybrid encoding 處理 streaming video,配合 cascaded gate、keyframe context、hot/cold top-k injection,目標是壓低成本而保留關鍵視覺證據。
  • 會累積經驗:self-evolution 會根據失敗回合與成功記憶更新 skill bank,唔係每次都由同一套靜態提示開始。
  • 評測唔只看答對:VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊,更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs(Gemini 3 Flash、GPT-5.2)上,VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%,相對 offline uniform 8 frame baseline 亦再降 25.9%,同時多數設定下準確率有提升。到 VisualClawArena,配合 Codex(GPT-5.5)與 Claude Code(Sonnet 4.6)等 backend,macro accuracy 分別提升 2.9% 同 3.2%;如果你關心的是可插拔代理基建、多模態工作流,或者想為 live vision 與影片任務加上可持續進化能力,這個項目比單純模型包裝器更有研究同落地價值。

GitHub: https://github.com/UCSC-VLAA/VisualClaw

項目: https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, Skill 技能, 框架, 清華大學

last30days-skill:用人氣做 AI 搜尋

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目,核心做法不是依賴編輯式排序,而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對,整理出近 30 日最受關注的資訊。它要解決的,是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思:不是只看網頁是否存在,而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人,這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力,公開資料已可直接涵蓋 Reddit comments;再加入 API key,便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍,不再偏向音樂影片,較容易抓到訪談、評論與解說內容;YouTube comments 與 TikTok comments 則屬額外選項,因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式,反映它比較重視訊號品質與成本控制,而不是一味堆資料。

  • AI agent-led search engine 形式整合多平台近期討論
  • 免費可用來源包括 Reddit comments,並附 upvote 數據
  • 可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
  • YouTube transcripts 強化了非音樂內容覆蓋範圍
  • 適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集,這個項目幾適合放入工作流程。它未必提供嚴格學術式評測,現有資訊也未見標準 benchmark 成績,但從來源設計與成本開關來看,方向相當明確:用多平台真實互動訊號,讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter,以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub: https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

Orchestra-o1:多智能體協作框架拆解複雜多模態任務

Orchestra-o1 Framework

Orchestra-o1 由香港中文大學(CUHK)計算機科學與工程學系的 Fan Zhang 領銜,聯同北京大學、清華大學、同濟大學及 LIGHTSPEED 團隊共同開發。模型權重同步開源於 Hugging Face。

這個項目的定位是多智能體協作框架,針對文字、圖像、音訊、影片並存的「全模態」(omnimodal)場景,自動把複雜任務拆解成多個子任務,再分配給專責的 SubAgent 執行。MainAgent 負責規劃與協調,SubAgent 則配備搜尋、執行程式碼、影音分析等工具獨立運作,獨立子任務可同步執行以提升效率。

重點摘要:

  • 層級式架構:MainAgent 統籌拆解任務,SubAgent 各司其職,避免單一模型疲於應付多模態輸入。
  • 平行執行:無依賴的子任務同步進行,加快整體處理速度。
  • DA-GRPO 訓練法:以 Qwen3-8B 為基礎,搭配 Decision-Aligned Group Relative Policy Optimization 與 LLM-as-judge 獎勵機制微調。
  • OmniGAIA 表現:在 OmniGAIA 基準測試取得 72.8% 準確率,領先第二名 10.3 個百分點。
  • 開源生態:基於 Python 3.10+ 與 verl 框架,訓練需 8 張 H20 (96GB) GPU 單節點。

Orchestra-o1 的創新在於把「模態感知拆解」與「線上子智能體特化」結合,讓多模態協調不再依賴線性流程。適合需要處理多媒體資訊的研究團隊、Agent 開發者,以及關注 Computer-use agents(CUAs)與多模態模型應用的工程師。

效能方面,作者將 Orchestra-o1-8B 定位為同類開源全模態代理中最先進(SOTA),同時在商用模型(例如 GPT-5)推理腳本中亦提供整合,方便研究人員比較開源與閉源路線的差距。

GitHub: https://github.com/zfkarl/Orchestra-o1

Paper: https://arxiv.org/pdf/2606.13707

Categories: 開源, 香港中文大學, Agentic, 模型, 深度學習, OpenClaw, 框架

MERIT:把音樂相似度拆成三條獨立線索

MERIT architecture

現有的音樂相似度模型大多只輸出一個籠統的總分,把旋律、節奏、音色混在一起計算,使用者很難說明「為何這兩首歌像」。MERIT(Multi-Factor Disentangled Music Similarity)由新加坡科技與設計大學的 AMAAI 實驗室推出,以凍結的 MERT backbone 為基礎,再訓練三個各約 11 MB 的輕量投影頭(projection heads),分別負責旋律(S_mel)、節奏(S_rhy)、音色(S_tim)。一段鋼琴翻唱搖滾歌曲的音檔,會在旋律分數偏高、節奏和音色分數偏低,差異即時可見。

這個項目解決的核心問題是音樂檢索的可解釋性。傳統 CLAP、MuLan 或 MERT 這類自監督音訊模型把多種特徵壓縮到同一向量,餘弦相似度難以拆解;MERIT 改用條件式音訊生成與音源分離技術,自動產生 296K 組「單一變因」三元組訓練資料,免去人工標註。三個頭在 held-out 測試中都達到 ≥99.6% 的三元組準確率,並在零樣本真實音訊探測中各自主導對應的感知維度。

重點摘要:

  • 把相似度拆成旋律、節奏、音色三條獨立訊號
  • 採用凍結 MERT-v1-330M 主幹,僅訓練小型投影頭
  • 透過生成式管線產生 296K 因子控制三元組,無需人工標註
  • 每個頭約 11 MB,總計約 33 MB,方便部署
  • 預訓練權重與資料集已發布於 HuggingFace

合適的場景包括音樂串流平台的進階推薦、音樂學研究中的跨版本比較,以及需要解釋「為何推薦這首」的場景。對一般使用者而言,把 S_mel 較高的曲目組成「同一旋律」歌單,就能體驗到差異。

運作流程相當直接:下載三個 .pt 投影頭,以 Wav2Vec2FeatureExtractor 讀入音檔,從 MERT 指定的第 3、4、5、6、23 層抽取特徵,分別送入三個頭即可得到三組 embedding,再以餘弦相似度比較。模型與資料集皆已開源,有興趣的開發者可從 HuggingFace 取得 amaai-lab/merit 與對應資料集。

GitHub: https://github.com/AMAAI-Lab/MERIT

Paper: https://arxiv.org/pdf/2605.27346

Categories: NVIDIA, OpenClaw, Dataset 數據集

Agent Skill 的安全盲點:當三套掃描器互相矛盾時

隨着 AI 代理(AI agents)愈來愈普及,一種稱為「代理技能」(agent skills)的新興軟件層亦隨之興起。技能可以包含指令、工具調用模式、可執行腳本等內容,屬於代理與外部工具之間的執行層,與傳統軟件包有明顯差異。技能即使不含惡意程式碼,仍可能因為授予過大權限、隱藏遠端控制路徑或不安全地儲存憑證而構成風險。

OpenClaw 基金會聯同 NVIDIA 發佈了名為 ClawHub Security Signals 的數據集,收錄了 67,453 個最新版本的公開 OpenClaw 技能。每筆紀錄包含已遮罩的 SKILL.md 內容、清理後的附帶檔案,以及三套掃描器的結果:VirusTotal、靜態啟發式分析,以及 NVIDIA 自行開發的 SkillSpector。研究團隊並非要估算惡意技能的普及率,而是聚焦於「掃描器之間的分歧」這個現象。

研究結果令人意外:三套掃描器極少對同一批技能發出警示。任何兩個掃描器的重疊率最高只有 10.4%,三者同時標記的技能僅佔 0.69%,而被單一掃描器標記的技能卻高達 81.9%。這種分歧並非隨機,而是呈現出明確的結構。SkillSpector 專門針對語意層面的代理風險,在 25,504 個可疑項目中有 75.3% 觸發警示,但在確認惡意的 206 個項目中只標記了 6.8%。相反地,在確認惡意的項目中,VirusTotal 標記了 72.8%,與附帶程式碼的惡意軟件證據吻合。

這項研究強調,AI 代理技能的安全審查需要多層次治理(layered governance),不能依賴單一掃描器作出封鎖或放行的決定。

以下是這項工作的重點摘要:

  • 規模龐大的安全數據集:收錄逾六萬個 OpenClaw 技能的最新版本,涵蓋三套不同掃描器的結果。
  • 聚焦於掃描器分歧:研究發現不同掃描器對同一批技能的判斷差異極大,重疊率偏低。
  • 不同掃描器各有所長:SkillSpector 擅長識別語意層面的代理風險,VirusTotal 則對附帶惡意程式碼的技能更敏感。
  • 支持分層治理理念:研究主張技能安全需要多層次、多工具的綜合判斷,而非單一指標。
  • 公開版本供社群使用:數據集以「銀標準」形式發佈,標籤來自自動判定而非人工標註,研究團隊歡迎社群在此基礎上開發更專門的技能安全分類模型。

這個項目最適合關注 AI 代理安全、軟件供應鏈防護及自動化安全掃描的研究人員與工程師。數據集已在 Hugging Face 上公開,研究團隊鼓勵社群進一步開發針對技能安全分類的模型。

Paper: https://arxiv.org/pdf/2606.01494

Categories: NVIDIA, OpenClaw, Dataset 數據集

TaskMem:教多模態智能體學會選擇性記憶

Og image

多模態智能體在持續觀察環境時,會接收海量且不斷累積的視覺與語言資訊。若把所有內容都存進長期記憶,既不實際也容易雜訊過多。Task-Focused Memorization for Multimodal Agents 這份研究,把焦點放在一個根本問題:智能體到底應該記住什麼?

來自 ByteDance Seed 與復旦大學的作者群提出名為 TaskMem(Task-focused Memorization Policy Learning) 的框架,把記憶生成視為一項可學習的策略。系統採用兩階段訓練:第一階段先學習怎樣記得準確,第二階段則在部署後,根據近期遇到的任務調整一個 adapter,使基礎多模態大型語言模型(MLLM)偏向記錄與任務相關的內容。整個過程以強化學習驅動,獎勵訊號來自真實任務的表現。

為了評估記憶品質,研究團隊將 VideoMME、EgoLife 與 EgoTempo 改造成串流基準,模擬智能體邊觀察邊回答的場景,且回答時只能依賴記憶,不能翻看原始影片。基於 Qwen3-VL-30B-A3B,TaskMem 在三個基準的 VQA 準確率分別提升 6.3%、7.0% 與 5.3%,並在多項指標上超越 Gemini-2.5-Pro、GPT-5.2 等大型模型。

這項工作對從事多模態智能體、機器人記錄系統或長期對話助手開發的研究者特別有參考價值,因為它把「該記什麼」變成可優化的決策,而非寫死規則。對於關注世界模型與持續學習(continual learning)的團隊,TaskMem 亦提供了一個結合任務回饋與記憶策略的可行路徑。

重點摘要:

  • 核心問題:多模態智能體面對資訊洪流,需要學會選擇性記憶。
  • 方法:以強化學習訓練記憶策略,分為基礎保真度與任務相關性兩階段。
  • 評估方式:將三個影片基準改造成串流設定,僅以記憶回答問題。
  • 成效:在 VideoMME、EgoLife、EgoTempo 上 VQA 準確率提升 5.3% 至 7.0%。
  • 適用對象:研究多模態智能體、機器人記憶與持續學習的開發者與學者。

項目: https://taskmem.github.io/

Categories: 開源, 字節跳動, Agentic, OpenClaw, 框架

GUI 智能體總是自己犯錯?RoTS 用樹狀軌跡合成教它如何自救

Repository image for AlibabaResearch/RoTS

近年 GUI agents(圖形介面智能體)雖然進步神速,但只要自己點錯一個按鈕、誤判畫面狀態,往往就會卡住無法完成任務。這項由阿里雲團隊撰寫、入選 ICML 2026 Spotlight 的工作,正是針對這個「自己造成的錯誤」痛點,從評估與訓練數據兩端同時入手。

他們先推出了 GUI-RobustEval 基準,收錄 1,216 個可執行測試案例,涵蓋 11 種錯誤類型與 4 種錯誤深度,讓開發者能系統化量測智能體的「自救」能力。接著提出 RoTS 框架,以樹狀結構(tree-based)在線生成 80 萬條訓練軌跡,主動探索不同錯誤模式並合成對應的恢復步驟。

基於這批數據微調而成的 RoTS-7B 與 RoTS-32B,在 OSWorld 上於開源權重模型中取得領先表現,其中 RoTS-32B 達到 47.4% 成功率與 33.8% All-Pass@4 分數。研究團隊指出,這些分數顯示長時程錯誤恢復能力,同時提升了整體任務表現。

對從事電腦使用代理(Computer-use agents, CUAs)研究、開源 VLM 微調,或關注 GUI 自動化在真實環境穩定性的團隊而言,這是一份值得追蹤的成果。論文與數據集已公開,但程式碼與評估工具仍在整理中,有興趣的人可先閱讀論文並關注後續釋出。

重點摘要:

  • 解決 GUI agents 因自身策略錯誤而無法恢復的部署瓶頸
  • GUI-RobustEval 提供 1,216 個測試案例,覆蓋 11 種錯誤類型
  • RoTS 以樹狀在線合成框架產出 80 萬條高品質訓練軌跡
  • RoTS-7B 與 RoTS-32B 於 OSWorld 開源模型中表現領先
  • 程式碼與數據集仍在整理階段,論文已於 arXiv 公開

GitHub: https://github.com/AlibabaResearch/RoTS

Paper: https://arxiv.org/pdf/2605.29447

Categories: 開源, Agentic, OpenClaw, 框架

AutoResearchClaw:由想法走向論文的 AI 流程

AutoResearchClaw Logo

AutoResearchClaw 是一個面向研究工作的 AI 項目,目標不是單純幫你寫字,而是把「提出題目、討論假設、安排實驗、整理結果、輸出論文」串成一條連續流程。由描述可見,它特別針對傳統線性流程的限制,嘗試讓系統在失敗後仍可調整方向,而不是一步出錯就停住。

動手理解這個項目,最自然的方法是把它當成一位研究助理:先輸入一個研究主題,再讓系統展開分析、規劃與生成。它亦支援與 OpenClaw 配合,而人類介入功能預設為關閉,代表你可以先用原本流程體驗,再按需要加入審批或協作節點,不會一下子改變整套使用習慣。

這個項目較有意思的地方,在於它不只靠單一模型一次過完成工作。根據論文介紹,它結合多代理辯論、失敗後修正的執行機制、可驗證的結果彙報,以及跨次任務累積經驗的設計,方向上比一般「輸入提示詞、輸出文章」的工具更接近真正研究循環。

  • 以一句研究想法作為起點,嘗試延伸成完整研究流程
  • 強調多代理協作,而非單一路徑生成內容
  • 支援人類參與模式,但預設不影響原有流程
  • 可選整合 MetaClaw,核心流程毋須新增依賴
  • 已通過 2,699 項測試,顯示整合新功能後穩定性未見明顯倒退

適合的場景包括學術探索、研究提案發想、實驗規劃初稿,以及想觀察 AI 如何拆解研究問題的人。相關比較對象可留意 AI Scientist v2,論文亦直接以 ARC-Bench 作基準比較;若你關心的是代理式研究系統,而不只是聊天機械人,這個項目值得放入觀察名單。不過它產出的內容仍應由研究者覆核,尤其在方法設計、引用與結論判斷上更需要人手把關。

GitHub: https://github.com/aiming-lab/AutoResearchClaw

Paper: https://arxiv.org/pdf/2605.20025

Categories: 開源, Agentic, OpenClaw

openclaw 最新版本重點速覽

Og image

今次 openclaw 2026.5.12 發佈內容,重點放在模組拆分同安裝體驗優化。根據版本說明,Amazon Bedrock 以及 Bedrock Mantle 相關 provider 套件已由核心程式分離,代表一般核心安裝唔再自動拉入 AWS SDK 依賴,只有真正需要這些 provider 時先另外安裝。

實際使用上,呢個改動對開發者同部署人員最直接。若你只用核心功能,可以保留較精簡環境;如果要接入 Amazon Bedrock,先再安裝對應 provider 套件,令依賴管理更清楚,亦較容易控制映像大小、安裝時間同維護成本。

呢個專案今次最明顯的創新,不是新增大量表面功能,而是把供應商整合能力改成按需載入思路。對插件系統來說,這類 externalize 做法通常有助減少不必要耦合,讓核心與外掛邊界更清晰,對長遠擴充同版本管理較有利。

受惠工作主要包括雲端整合、平台維運、DevOps、企業內部工具開發,以及需要多環境部署的團隊。尤其當不同專案未必都用 AWS 服務時,拆分 provider 可避免每個安裝都承受相同依賴負擔。

  • 核心安裝不再預設包含 AWS SDK 依賴
  • Amazon Bedrock 與相關 provider 改為獨立安裝
  • 更適合按需要啟用外掛與雲端整合
  • 有助簡化部署、維護與套件管理

性能與評估方面,頁面可見資訊未提供具體跑分、延遲或資源使用數據,因此較穩妥的結論是:這次更新較偏向架構與依賴優化,預期可改善安裝體積與管理效率,但實際效能提升幅度仍要視部署方式同使用的 provider 組合而定。

網址: https://github.com/openclaw/openclaw/releases/tag/v2026.5.12

Categories: 開源, Agentic, OpenClaw

Page 1 of 2
1 2