Ponytail:幫 AI Agent 減少大量的程式碼

Ponytail, the lazy senior dev

Ponytail 是一個針對 AI Agent 的工具型項目,核心作用不是取代模型,而是替模型加上一套固定判斷規則,令它在寫程式前先問自己:這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接,就是不少 AI Agent 會把簡單任務寫得太重,順手加框架、包裝層、額外抽象,最後程式碼變多、回應變慢,成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶,而是保留必要部分」變成一條清晰階梯:先跳過不需要的東西,再優先用 stdlib、原生平台功能、已安裝依賴,最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效,因為模型常見問題不是完全不懂,而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣,包成可重複套用的規則。

如果你想試它,先找幾類容易被模型寫得過火的小任務,例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示,它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境,亦即它不是綁死單一平台,而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人,這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中,官方列出每項任務程式碼可減少 80% 至 94%,延遲快 3 至 6 倍,成本下降 42% 至 75%。不過這些結果有清楚前提,只能代表特定模型與提示方式下的中位數表現,並非所有模型都一定受惠;倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型,規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度,因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

  • 重點不是生成更多程式,而是限制 AI Agent 只寫任務真正需要的部分
  • 支援多個 Agent 宿主,包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
  • 提供 /ponytail-review/ponytail-audit/ponytail-debt 等指令,方便檢查過度工程化
  • benchmark 數據亮眼,但倉庫已提醒不同模型、提示長度與回合數會影響結果
  • 適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化,讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層,而不是新模型或框架。相關模型與環境方面,倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus,也提到 GPT-5.5,並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力,而是更穩定地避免 AI Agent 過度設計,這個項目有很明確的價值;若你的工作本身需要大量自訂架構與長鏈依賴,它未必會永遠選出你最喜歡的答案,但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub: https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, , 模型, Anthropic, OpenClaw, Skill 技能, 框架

JoyAI-VL-Interaction 把影像助手變主動

JoyAI-VL-Interaction overview

現時多數視覺語言模型仍然沿用 turn-based 問答範式:用戶問一句,模型答一句;就算放進視像通話或直播介面,底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法,改成持續觀看、按秒判斷要沉默、回應,還是把難題交給背景模型處理,目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型可部署系統項目,想解決的不是普通問答,而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型,支援 real-time video-language interaction,並配合 time-aligned interaction data、training recipe 與完整系統,重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己,最容易的測試場景是把 webcam、直播畫面或監控串流接入,觀察它會否在有事件時主動開口,而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範,甚至要一邊看影像一邊調用 API 或 agent 的流程。

  • 核心改動是由問答式互動,轉向 watch-and-do 式互動
  • 模型每秒自行決定沉默、回應或 delegation
  • 系統可接駁 ASR、TTS、memory、API 與其他 agent
  • 報告稱可長時間處理連續影片,延遲維持在 sub-second
  • 人工評分比較中,對 Doubao 與 Gemini 的質量與時機掌握都有明顯優勢

創新位不只在模型本身,也在整個開放堆疊一起釋出:模型、數據、訓練方法與部署系統放在同一個項目脈絡,方便研究者與開發者沿原路線延伸。相關模型與組件包括背景大模型、API、agent,以及文中對比的 Doubao、Gemini;若完整開源內容如期提供,這個項目會對即時多模態互動研究有相當高參考價值。

GitHub: https://github.com/jd-opensource/JoyAI-VL-Interaction

項目:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

Categories: 開源, 字節跳動, Gemini, OpenAI, 文字轉語音, Agentic, API, Video, Image, 工具, AI productions, IDE, 多模態模型, 模型, 模型訓練, 視頻模型, 語音

VisualClaw:會進化的視覺代理

VisualClaw icon

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型,或者一次性工具調用去完成任務;作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升,而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system,夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間,加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建,重點唔係再訓練一個新模型,而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release,收錄 200 個 scenario,要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題,補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy,用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow,再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊,這種接法尤其實用,因為毋須由零重寫整個代理流程。

  • 核心結構清楚:gateway design 加上 pre/post hooks,方便在提示前後插入技能、記憶與評測。
  • 創新位具體:以 hybrid encoding 處理 streaming video,配合 cascaded gate、keyframe context、hot/cold top-k injection,目標是壓低成本而保留關鍵視覺證據。
  • 會累積經驗:self-evolution 會根據失敗回合與成功記憶更新 skill bank,唔係每次都由同一套靜態提示開始。
  • 評測唔只看答對:VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊,更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs(Gemini 3 Flash、GPT-5.2)上,VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%,相對 offline uniform 8 frame baseline 亦再降 25.9%,同時多數設定下準確率有提升。到 VisualClawArena,配合 Codex(GPT-5.5)與 Claude Code(Sonnet 4.6)等 backend,macro accuracy 分別提升 2.9% 同 3.2%;如果你關心的是可插拔代理基建、多模態工作流,或者想為 live vision 與影片任務加上可持續進化能力,這個項目比單純模型包裝器更有研究同落地價值。

GitHub: https://github.com/UCSC-VLAA/VisualClaw

項目: https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, 清華大學, 框架, Skill 技能

last30days-skill:用人氣做 AI 搜尋

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目,核心做法不是依賴編輯式排序,而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對,整理出近 30 日最受關注的資訊。它要解決的,是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思:不是只看網頁是否存在,而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人,這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力,公開資料已可直接涵蓋 Reddit comments;再加入 API key,便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍,不再偏向音樂影片,較容易抓到訪談、評論與解說內容;YouTube comments 與 TikTok comments 則屬額外選項,因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式,反映它比較重視訊號品質與成本控制,而不是一味堆資料。

  • AI agent-led search engine 形式整合多平台近期討論
  • 免費可用來源包括 Reddit comments,並附 upvote 數據
  • 可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
  • YouTube transcripts 強化了非音樂內容覆蓋範圍
  • 適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集,這個項目幾適合放入工作流程。它未必提供嚴格學術式評測,現有資訊也未見標準 benchmark 成績,但從來源設計與成本開關來看,方向相當明確:用多平台真實互動訊號,讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter,以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub: https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

[技術文章] 牛津團隊用 MedMisBench 測試醫療 LLM 抗誤導力

Hero image preview

這個項目由 University of Oxford、University of Washington、University College London 及 University of Waterloo 的研究人員合作提出,重點放在醫療 Large language models(LLMs)遇上誤導內容時,能否守住原本正確的醫療判斷。作者指出,現有做法多數用乾淨、考試式題目評估模型知識,但這種範式只量到模型「識唔識」,未有量到模型在混雜資訊環境中會否被帶偏。

因此,團隊提出 MedMisBench,將「epistemic resilience」定義為模型在 adversarial context 之下仍維持正確判斷的能力。這個 benchmark 收錄 10,932 條醫療題目項目,以及 48,889 組 misleading context-option pairs,涵蓋 medical reasoning、agentic capability 和 patient-journey evaluation,用來測試模型面對看似合理但其實錯誤的上下文時會點樣改答案。

論文最關鍵的訊息,是不少模型本來答啱,但加入聚焦式誤導句子後便放棄正確答案。11 個 model configurations 的平均準確率,由原題的 71.1% 跌到 38.0%,attack success 達 51.5%;其中 authority-framed falsehoods 的攻擊成功率有 69.5%,exception-poisoning claims 也有 64.1%,顯示帶有權威語氣或規則例外包裝的錯誤資訊尤其危險。

對想使用醫療 AI 的讀者來說,這個項目的價值不在於提供新診斷模型,而是補上現有醫療評測的盲點:高分醫學考試 benchmark,未必代表模型在真實健康資訊環境中仍可靠。研究還找來來自 7 個國家的 14 人臨床小組覆核,認為 38.2% 檢視個案存在嚴重潛在傷害,這令 MedMisBench 很適合用作醫療模型安全測試、紅隊檢驗,以及部署前風險篩查。

  • 核心批評:現有 benchmark 多測知識正確率,較少測 misleading context 下是否仍能守住正確判斷
  • 新增 framing:用 epistemic resilience 專門量度模型抗誤導能力
  • 數據規模:10,932 個醫療題目項目、48,889 組 misleading context-option pairs
  • 主要結果:平均準確率由 71.1% 跌至 38.0%,attack success 為 51.5%
  • 引用模型包括 ChatGPT、Gemini 等醫療文字理解與生成能力較強的 LLMs

Paper: https://arxiv.org/pdf/2606.12291

Categories: Gemini, OpenAI, Agentic, Medical醫學, 多模態模型, 安全, Dataset 數據集

ClinHallu 拆解醫療 MLLM 幻覺來源

ClinHallu logo

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具,目標不是只計算答對率,而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查,作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識,還是把資訊串連時推錯,因此把問題重組成 stage-wise 診斷。

這個項目的核心做法,是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段,再配合 structured CoT annotations 與 stage-replacement interventions 觀察:如果只修正其中一段,最終答案會否改善。這種設計比單看答案更有分析力,因為它直接對應三種常見錯誤來源:visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances,並提供評測流程。想試這個項目的人,較合理的路線是先選定 datasets 內要跑的資料集,再對照 models.gold cotmodels.model cotmodels.judge 的設定,之後查看 results 內的 model cot 與 eval 輸出;若只想生成替換後的 jsonl,也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析,不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示,Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列,Avg Acc 為 80.1,而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下,而是提醒你:同一模型可能答案不差,但在某個階段的 hallucination rate 仍然偏高,之後微調或加防護時就有更清晰方向。

  • 不是只看答對率:它會拆解模型在哪個推理階段出錯。
  • 方法有辨識度:用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
  • 場景很明確:適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
  • 相關模型完整:結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手,ClinHallu 並不屬於那一類;它更像一把量尺,專門檢查模型推理鏈哪裡開始失真。對研究團隊來說,這比只知道「模型有幻覺」更有用,因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正,連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub: https://github.com/alibaba-damo-academy/ClinHallu

Paper: https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, Dataset 數據集, 清華大學

SCOPE:複雜圖片生成,點樣更少走樣?

Repository image for nopnor/SCOPE

SCOPE 係一個面向複雜圖片生成嘅研究型框架,核心做法唔係單靠一次過輸入長提示詞,而係先將要求拆成可追蹤嘅「語義承諾」,例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作,減少中途遺漏要求嘅情況。

實際使用上,呢個專案比較似一套流程引擎,而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境,並按需要接駁圖片生成、驗證同搜尋等後端服務;如果想跑完整代理式工作流程,亦需要 Codex CLI。

佢最值得留意嘅創新,在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來,而係透過驗證同修補階段,集中處理未解決或違反咗嘅承諾,令後續動作更有方向,對多角色、多約束、知識密集型提示尤其重要。

  • 以結構化規格保存提示要求,而唔係只靠一段文字
  • 將檢索、推理、生成、驗證、修補串成可追蹤流程
  • 適合研究同評測複雜圖片生成效果
  • 內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊,或者正測試高要求圖像任務,SCOPE 會比一般單步生成流程更有分析價值。相反,若你只係想快速出圖,呢個專案門檻會較高,因為它重點係流程控制、可驗證性同評估,而唔係簡化操作介面。

整體來講,SCOPE 展示咗一個幾清晰嘅方向:當提示變得愈來愈複雜,單靠模型「自己理解」未必足夠,最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見,佢亦配合 Gen-Arena 呢類基準做評估,令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agentic

PaperBanana 賦每個創意工作流程

PaperBanana 是一個開源的自動化學術圖表生成框架,由 Google Research 開發。這個工具專為 AI 研究人員設計,能夠自動生成符合出版標準的方法論圖表、代理架構和統計圖 。

PaperBanana 還擁有強大的潤色功能。您可以輸入手繪草圖或示意圖,系統會將它們精修成專業的向量圖。Google 聲稱兩星期後會提供開源實作版本,亦有第三方的版本可在 GitHub 下載使用。

Categories: 開源, Google, Gemini, Agentic


Page 1 of 3
1 2 3