GenClaw 用寫程式方式改造 AI 生成圖

teaser

GenClaw 是一個研究中的項目,核心不是不停改 prompt,而是把程式碼變成可控制的視覺草稿,再交給圖像模型完成渲染。對一般讀者來說,可以把它理解成先畫草圖、定位置、排文字,之後才交由 AI 上色和補質感。

這個項目想處理的痛點很明確:很多 image generation 流程仍然像黑盒,生成失敗時只能反覆重寫提示詞碰運氣。GenClaw 將流程拆成 concept、sketch、render 幾步,令畫面中的物件數量、空間配置,甚至文字排版,都有機會透過可執行程式直接調整。

這做法結合搜尋、推理與程式繪圖,使用 SVG、HTML/CSS、Python,亦提到 Three.js 這類輕量 3D 方式來建立中間畫布;最後再調用 image generation model 補上材質、光影與真實感。這種設計比單次生成更容易檢查、修改,亦較貼近人類由草稿到完稿的創作步驟。

  • 把程式碼當成視覺畫筆,而非只靠文字提示
  • 適合複雜場景、海報文字、空間佈局等要求較高的畫面
  • 中間結果可檢查與回退,降低黑盒生成的不確定性
  • 論文提到可配合 GPT-Image、Qwen-Image、Nano-Banana 一類模型理解其定位

現階段要留意的是,儲存庫已公開 technical report,但 code 和 demo 仍在準備中,所以目前較適合先讀論文了解方法,再觀察後續釋出。從論文描述看,它較適合做視覺生成研究、代理系統開發,或者需要高控制度圖像流程的團隊;至於效能評估,公開頁面以方法與示例為主,較完整的量化表現仍需以論文內容和日後程式發布為準。

GitHub: https://github.com/yejy53/GenClaw

Paper: https://arxiv.org/pdf/2605.30248

Categories: 開源, 香港中文大學, Agentic, 清華大學

GEM 把深度圖生成帶入訓練流程

overview

GEM(Generative-supervised Embodied vision-language Model)是一個面向具身智能的 Vision-Language Models(VLMs)項目,重點不是只靠文字與圖片對答,而是讓模型同時學會場景的空間結構。它加入了深度圖生成這個輔助目標,希望補足一般文字驅動預訓練較少接觸的物理與幾何訊息,令模型不只「看得明」,也更接近「知道怎樣在空間中行動」。

這個設計想解決的問題很清楚:很多模型在語意理解、問答和描述表現不錯,但一牽涉到距離、遮擋、方向、可操作位置,或者下一步應怎樣做,能力就未必跟得上。GEM的做法,是在預訓練階段直接把 depth map generation 放進去,令模型在學文字生成時,也學場景深度與結構。論文亦提到其方法結合 hybrid autoregressive-diffusion architecture,並以 progressive training strategy 先穩定生成模組,再聯合訓練。

GEM 比較適合研究與實驗用途。倉庫已提供 GEM-2B checkpoint、GEM-250K 資料樣本,以及 VLM training / inference 代碼;要動手測試,主要是先準備 Python 3.10+ 環境與 torch、transformers、deepspeed、flash-attn 等依賴,再把資料路徑、depth image 路徑、MODEL_PATH 和 OUTPUT_DIR 設定好。由於資料位置需要手動修改到程式檔案內,整個流程不像一般即開即用工具,比較像給熟悉模型訓練流程的人做重現、微調或延伸開發。

項目的亮點不止於模型結構,還包括資料方向。README 提到釋出的是 GEM-250K 樣本,而論文內容則描述了更大規模的 GEM-4M,涵蓋 grounding、reasoning、planning 以及 depth supervision。這表示團隊的重點不只是堆大模型參數,而是把具身任務常見的空間理解、時序規劃和物理推理,放進同一套訓練資料與目標內,這對 Embodied VLMs 走向 Vision-Language-Action Models(VLA)相當關鍵。

  • 核心方法是在 VLM 預訓練中加入 depth map generation,強化 physical grounding 與 spatial reasoning
  • 已公開的相關資源包括 GEM-2B、GEM-250K,以及訓練與推論代碼
  • 延伸版本 GEM-VLA 面向 Vision-Language-Action Models(VLA)與機械人操作
  • 依賴包含 torch>=2.6.0、transformers>=4.57.0、deepspeed、flash-attn、accelerate、peft、triton、torchcodec
  • 現階段較適合研究人員、ML 工程師,或想重現論文結果的團隊

性能方面,GEM 在多個 embodied benchmarks 上有強勁表現,而論文內容則進一步指出 GEM 與 GEM-VLA 在 diverse embodied benchmarks、LIBERO 模擬環境,以及 real-world robot tasks 取得 state-of-the-art results。從公開資訊可見,它比較的是空間推理、grounding 與任務執行能力,而不只是通用聊天或圖文問答分數。不過,倉庫頁面未完整列出所有可重現的評測表格與設定細節,使用時仍應以論文和後續釋出的完整資料為準。

整體來看,GEM最適合關注機械人、多模態學習、Embodied Intelligence 的讀者留意。若你正在找的是一個現成聊天助手,這個項目未必對口;但若你想了解下一代模型怎樣由「看圖答題」走向「理解空間並支援動作決策」,GEM提供了一條很具代表性的路線。相關模型與基礎包括 GEM、GEM-2B、待釋出的 GEM-8B、延伸版本 GEM-VLA,以及其代碼所建基的 Qwen3-VL、Sana、RDT2。

GitHub: https://github.com/zhaorw02/GEM

Paper: https://arxiv.org/pdf/2605.28548

Categories: 騰訊, Agentic, 模型, 視覺模型, 清華大學

LearnWeak:教小型桌面代理補弱變強

LearnWeak method

LearnWeak 針對一個常見的 Computer-use agents(CUA) 痛點:小型桌面代理雖然便宜又快,但去到指定軟件時,成功率往往不穩。它不是盲目加資料,而是先找出學生模型的弱項,再集中補訓。

LearnWeak 建議先用 meituan/EvoCUA-8B-20260105 做底座,再按軟件掛上對應 LoRA,例如 learnweak-gimp。完整流程會配合 OSWorld,呼叫時記得選對模組名。

• 先辨認學生模型弱點,再自動生成針對性練習任務
• 用教師與學生的操作軌跡差異建立監督,毋須人工標註
• 訓練時分開處理規劃錯誤與執行錯誤,更新更精準
• 已有 GIMP、LibreOffice Calc、Impress、Writer、Thunderbird、VLC、VS Code、OS 的 LoRA 模組

它把學生(代理)弱點直接帶入資料生成與訓練,不再用同一套監督硬套所有錯誤。論文指出,在 OSWorld 八個桌面範疇,它平均比 EvoCUA-8B 高 11.6 個百分點,亦比 OpenCUA-7B 高 11.1 個百分點。

這項目適合要把小模型鎖定在指定桌面工作流的團隊,例如內部工具、自動化測試或較重視私隱的環境。它未必是即裝即用的一般工具,但對研究者、代理開發者,以及想低成本做範疇微調的人,很有參考價值。

GitHub: https://github.com/sujiikim/LearnWeak

Paper: https://arxiv.org/pdf/2605.28775

Categories: Agentic, 模型, 深度學習

AIQ 為代理工具加上深度研究能力

Og image

不少代理工具本身已很擅長協調流程,例如管理對話、串接工具和執行程式碼;但一到需要整合多份文件、引用來源、或根據企業資料整理長篇分析,開發團隊往往要自行處理大量繁瑣工作。這篇內容介紹的 NVIDIA AI-Q,重點正是把這類深度研究能力封裝成可攜的項目技能,讓代理工具直接調用。

它解決的問題很明確:團隊不用再為每個項目重建檢索、規劃、整理、引用與評估流程。代理工具可把研究任務交給本機或託管的 AI-Q 伺服器,之後收回一份有結構、附引用的報告;而敏感資料亦可留在企業內部環境,對醫療、金融、政府及國防等重視資料管控的場景尤其重要。

上手方式亦相對直接。這個項目提供 SKILL.md 說明檔,以及一個輔助腳本去處理請求路由、提交工作、輪詢進度和取回結果。使用前需要 Python 3.10 或以上,並準備一個可連線的 AI-Q Blueprint 伺服器;預設會連到本機位址,也可透過環境變數改寫。

Give Codex a Deep Research Skill With NVIDIA AI-Q

重點可概括如下:
– 把深度研究流程包裝成代理工具可調用的技能
– 支援多來源資料整合,並輸出附引用的報告
– 減少每個項目重複搭建研究流程的工作
– 讓敏感資料可保留在企業內部環境
– 可配合 Claude Code、Codex 等通用代理工具使用

這個項目的創新之處,在於它不是只提供單一工具函式,而是把意圖分類、澄清問題、淺層研究、深度研究與評估整合成較高層的能力。換句話說,代理工具只需學會如何委派,便可利用完整研究管線,較適合想快速為現有代理系統加入研究能力的團隊。文中未見具體效能數字或基準測試,因此現階段較適合把它理解為一個工程整合與工作流程簡化方案。

模型列表:Claude Code、Codex

GitHub: https://github.com/NVIDIA-AI-Blueprints/aiq/tree/v2.1.0

項目: https://developer.nvidia.com/blog/add-a-specialized-deep-research-skill-to-agent-harnesses/

Categories: 開源, NVIDIA, Agentic, 框架

Aurora:把影片編輯指令講清楚的 AI 代理

Repository image for yeates/Aurora

Aurora 是一個面向影片編輯的 AI 項目,重點不只是「生成畫面」,而是先理解你想改甚麼。它把使用者一句較口語、甚至有點含糊的要求,整理成較明確的編輯計劃,再交給影片模型處理,目標是減少「講唔清、改唔準」的情況。

這個項目想解決的核心問題,是影片編輯要求經常不完整。你可能只說想「換走背景」、「刪除路人」或「改成某種風格」,但未必提供參考圖,亦未必指出遮罩範圍;Aurora 會嘗試補回這些缺口,例如用圖像搜尋找參考,或用分割方式找出需要修改的位置。

它較有新意的地方,在於把多種影片編輯工作放進同一個框架,而不是每種效果各自一套模型。根據目前資料,這個項目支援替換、移除、風格轉換,以及根據參考內容插入元素,背後並結合了工具增強的視覺語言模型代理,以及統一的影片 diffusion transformer,也就是影片 DiT。

動手了解這個項目時,可先把它當成「會先幫你整理需求的影片編輯助手」。現階段儲存庫內容顯示官方實作仍在準備中,所以較適合先閱讀論文與項目頁,理解它如何把原始要求拆成指令、任務標籤、圖像搜尋查詢與遮罩描述四部分,再留意之後公開的程式。

  • 同一個項目框架處理多類影片編輯工作
  • 會先重寫使用者要求,再交由影片模型生成
  • 可補足缺少的參考圖與編輯區域資訊
  • 相關模型重點包括工具增強 VLM 代理與影片 DiT
  • 另有 AgentEdit-Bench,用來評估這類代理式影片編輯能力

對內容創作者、影像研究人員,或者關心人機協作編輯流程的人來說,Aurora 特別值得留意。它未必是即刻可用的成品,但從設計方向看,這個項目著重的不是單次炫技效果,而是令影片編輯指令變得更完整、更可執行。

GitHub: https://github.com/yeates/Aurora

Paper: https://arxiv.org/pdf/2605.18748

Categories: 開源, NVIDIA, Agentic, 中國, 框架

AutoResearchClaw:由想法走向論文的 AI 流程

AutoResearchClaw Logo

AutoResearchClaw 是一個面向研究工作的 AI 項目,目標不是單純幫你寫字,而是把「提出題目、討論假設、安排實驗、整理結果、輸出論文」串成一條連續流程。由描述可見,它特別針對傳統線性流程的限制,嘗試讓系統在失敗後仍可調整方向,而不是一步出錯就停住。

動手理解這個項目,最自然的方法是把它當成一位研究助理:先輸入一個研究主題,再讓系統展開分析、規劃與生成。它亦支援與 OpenClaw 配合,而人類介入功能預設為關閉,代表你可以先用原本流程體驗,再按需要加入審批或協作節點,不會一下子改變整套使用習慣。

這個項目較有意思的地方,在於它不只靠單一模型一次過完成工作。根據論文介紹,它結合多代理辯論、失敗後修正的執行機制、可驗證的結果彙報,以及跨次任務累積經驗的設計,方向上比一般「輸入提示詞、輸出文章」的工具更接近真正研究循環。

  • 以一句研究想法作為起點,嘗試延伸成完整研究流程
  • 強調多代理協作,而非單一路徑生成內容
  • 支援人類參與模式,但預設不影響原有流程
  • 可選整合 MetaClaw,核心流程毋須新增依賴
  • 已通過 2,699 項測試,顯示整合新功能後穩定性未見明顯倒退

適合的場景包括學術探索、研究提案發想、實驗規劃初稿,以及想觀察 AI 如何拆解研究問題的人。相關比較對象可留意 AI Scientist v2,論文亦直接以 ARC-Bench 作基準比較;若你關心的是代理式研究系統,而不只是聊天機械人,這個項目值得放入觀察名單。不過它產出的內容仍應由研究者覆核,尤其在方法設計、引用與結論判斷上更需要人手把關。

GitHub: https://github.com/aiming-lab/AutoResearchClaw

Paper: https://arxiv.org/pdf/2605.20025

Categories: 開源, Agentic, OpenClaw

SkillsVote:幫 AI 代理揀啱技能

pipeline

近年愈來愈多 AI 代理會靠「技能」完成寫程式、研究整理或流程自動化,但技能數量一多,就唔再係人手揀幾個清單咁簡單。SkillsVote 針對嘅,正正係大型技能庫管理:先由公開 GitHub 收集到超過 168 萬份 SKILL.md,當中約 79 萬份通過格式驗證,再進一步處理點樣推薦、判斷成效同持續整理。

實際使用上,呢個專案比較似一套治理層,而唔只係單一模型或插件。公開版本已經提供技能分析與前處理、實驗重現腳本,以及兩條整合路線:一條連接託管服務做雲端推薦,另一條係本地版 skills-vote-local,支援私有環境用代理式搜尋或向量搜尋去搵合適技能。

它較特別之處,在於唔係單靠關鍵字配對,而係把技能當成可持續管理嘅資產。簡單講,系統會先分析技能需要咩執行環境、依賴項同質素,再喺任務開始前做即時推薦;完成後再根據執行軌跡、使用情況同驗證訊號,較審慎咁判斷某項技能有冇真正幫到手。

  • 已整理大規模技能庫,適合唔想由零開始收集技能嘅團隊
  • 提供雲端版同本地版整合,方便公開或私有部署場景
  • 重點唔止推薦,仲包括品質分析與後續更新治理
  • 較適合 coding agent、research agent、workflow agent 相關應用
  • 文中涉及的模型與評測包括 GPT-5.2GPT-5.4 miniTerminal-Bench 2.0SWE-Bench Pro

對開發團隊而言,較自然嘅做法係先用本地或託管整合,把現有技能庫接入,再觀察系統推介結果同任務軌跡。現有資料亦顯示,它把重點放喺「唔更新模型本身,都可透過外部技能庫改善代理表現」;至於本地歸因與技能演化功能,儲存庫顯示仍在補完中,所以部署前可先視作一個已具雛形、但仍持續擴展嘅技能治理方案。

GitHub: https://github.com/MemTensor/skills-vote

Paper: https://arxiv.org/pdf/2605.18401

Categories: Agentic, 影像處理, Skill 技能

CiteVQA

CiteVQA overview

做文件問答評測時,很多工具只睇最後答案啱唔啱,但現實上,尤其是合約、財務報告、醫療文件呢類長篇 PDF,真正重要的是「答案來自邊一頁、邊一段、邊個區塊」。CiteVQA 針對的正正是這個缺口:它不只要求系統回答問題,仲要指出支撐答案的文件位置,而且細到元素層級,例如頁碼同區域框選。對想評估文件 AI 是否可靠的人來講,這比單純比拼答題分數實用得多。

實際使用上,這個專案較適合作為評測基準,而唔係一般用家即開即用的聊天工具。研究團隊、產品開發者或企業內部做文件自動化測試時,可以先取得資料集,再用自己的多模態模型跑推論,之後交畀評估程式比對答案與引用位置是否同樣正確。資料涵蓋英文與中文文件,來自 711 份 PDF、共 1,897 條問題,平均每份文件超過 40 頁,亦分成單一文件問答,以及要在多份文件中找答案的情境,難度相當貼近真實工作流程。

這個專案最值得留意的地方,是它把「答對」與「引對證據」綁埋一齊計分。核心指標 SAA 只有在答案正確,而且引用區域同標準證據對得上時先會得分,能更直接揭示模型有冇出現「講得似乎合理,但引用錯地方」的情況。根據公開結果,即使是表現較強的模型,答案分數與這種嚴格分數之間仍有明顯差距,反映現時不少系統其實未真正做到可追溯。這一點對高風險場景尤其重要,因為用戶要的不只是結論,仲要查得到根據。

重點可簡單整理成以下幾點:
不只評分答案,亦檢查引用證據是否真係來自正確頁面與區域
文件夠長亦夠真實,涵蓋 7 個大類領域、30 個細分類,並支援中英文
場景設計多樣,包括單文件、多文件但只有一份正確來源,以及多份來源都可能成立
適合測試文件型多模態模型,特別係要處理 PDF 版面、圖文混合與跨頁搜尋的系統
可用來比較模型可靠度,而唔係只比較誰的答案最似正解

從模型觀察角度看,這個基準亦提供了不錯的參考名單。公開結果提到的相關模型包括 Gemini-3.1-Pro-Preview、Gemini-3-Flash-Preview、GPT-5.4、Gemini-2.5-Pro、Seed2.0-Pro、GPT-5.2、Qwen3.6-Plus、GLM-5V-Turbo、Qwen3-VL-235B-A22B、Gemma-4-31B、Kimi-K2.5、Qwen3.5-397B-A17B 等。由這些結果可見,封閉模型在整體表現上暫時較領先,但開源模型同樣能作為對照組,方便團隊用統一方式測試自家方案。對要建立文件審核、知識搜尋、報告核對、法規查證流程的人來說,CiteVQA 的價值不在於幫你直接產生答案,而在於幫你分辨:哪個模型,才真係值得信。

GitHub: https://github.com/opendatalab/CiteVQA

Paper: https://arxiv.org/pdf/2605.12882

Categories: 開源, Agentic, 中國, 上海人工智慧實驗室

MMSkills:幫視覺代理學識睇畫面做事

MMSkills

MMSkills 是一個為視覺代理而設的技能框架,重點不是單靠文字提示,而是把「點做一件事」連同畫面線索、狀態提示和可參考影像一併保存。對一般讀者來說,可以理解成替 AI 準備一本會按情境翻閱的操作手冊,而不是每次由零開始估。

MMSkills 嘗試解決視覺代理在桌面操作或遊戲場景中,經常知道目標卻未必識得判斷畫面進度、失敗跡象,或者下一步應否轉招。MMSkills 的做法是只保留輕量提示,當偵測到當前狀態適合某個技能時,才臨時開一個分支去查看較完整的步驟與視覺參考,減少主上下文負擔。

留意 agent adapter 如何接入現有代理。公開資料顯示,它已提供可搜尋的多領域技能庫,並支援把技能包接到不同代理流程,較適合已有代理系統、想提升穩定性的人使用。

  • 把文字步驟、狀態卡與關鍵畫面結合,不只靠 prompt
  • 技能可搜尋及重用,現有網站顯示技能庫規模達 515 個
  • 採用臨時分支讀取技能,較像按需要查手冊
  • 適用於 GUI 與遊戲型視覺任務,重點在運行時決策
  • 可對接 Codex、OpenClaw、Claude Code 等代理

這個項目的新意,在於它不只研究模型本身,而是把外部經驗整理成可重用知識包,再在推理時按狀態調用。論文摘要亦提到,這套方法對前沿模型和較小型多模態模型都有幫助;如果你正在關注電腦代操作、自動化測試、遊戲代理,或者想研究 AI 如何「睇畫面再行動」,MMSkills 值得留意。

GitHub: https://github.com/DeepExperience/MMSkills

網址: https://arxiv.org/pdf/2605.13527

Categories: Agentic, 視覺模型, 框架

OpenHuman:把個人AI助手帶到桌面

The Tet

如果你對 AI 有興趣,但又唔想由指令列、插件同繁複設定開始,OpenHuman 這類桌面式助手會幾易入口。按項目說明,它偏向圖形介面操作,安裝後可用較短流程連接日常帳戶,幾下點擊就能開始使用,對一般用家算友善。

它真正想解決的,不是「答你一條問題」咁簡單,而是將分散喺 Gmail、Notion、GitHub、Slack、Calendar、Drive、Jira、Linear 等工具入面嘅資訊,整理成可持續使用嘅個人上下文。系統會自動抓取連接資料,並建立本機優先嘅記憶結構,令助手唔使每次都由零開始理解你做緊乜。

較有意思的地方,是它將記憶、工具同語音互動放埋一齊。資料會轉成較易處理的 Markdown 片段,存入 SQLite,亦可同步成相容 Obsidian 的筆記庫;同時又內建網頁搜尋、抓取、檔案操作、git、測試,以及語音輸入輸出,甚至提到可加入 Google Meet。模型方面,項目表示會按任務路由到不同類型模型,亦可選用本機 Ollama;相關能力涉及推理型、快速型、視覺型模型,語音輸出則提到 ElevenLabs。

The Karpathy-Style Super Intelligence Layer for your AI Agents (OpenHuman)

重點可以咁睇:
– 以桌面介面為先,較少依賴技術設定
– 可連接 118+ 第三方服務,減少資料分散
– 本機記憶庫加 Obsidian 相容筆記,方便追蹤與整理
– 內建工具鏈較完整,唔使逐個插件補功能
– 透過 TokenJuice 壓縮內容,官方稱可降低成本與延遲

如果你係內容工作者、獨立開發者、創業團隊,或者本身已經有一堆雲端工具要管理,OpenHuman 的方向會幾吸引。不過它仍屬早期測試階段,實際穩定性、授權連接體驗同記憶準確度,較適合抱住嘗鮮加觀望心態去試。

網址: https://github.com/tinyhumansai/openhuman

Categories: 開源, Agentic

Page 9 of 14
1 7 8 9 10 11 14