Agentic Archives - Page 7 of 14

RedAct 解決 tool-using 代理軌跡外洩難題

2026 年 6 月 15 日

RedAct 屬於框架類項目，核心作用是替 agent traces 做選擇性改寫，讓外界仍看得到審核需要的證據，例如工具呼叫、執行次序、中間決策與最終輸出，但較難直接重建可重用的 procedural skills。這個方向切中 Computer-use agents 與其他代理系統常見矛盾：透明度愈高，營運 know-how 愈容易流出。

這個項目由香港科技大學與中國科學院大學研究人員合作開發，作者包括 Shuwen Xu、Zhitao He 與 Yi R. (May) Fung。團隊關注的是 tool-using agents 公開執行軌跡後的安全問題：紀錄能幫人追查錯誤，但同時可能把公式、門檻值、工具選擇與驗證流程一併暴露。

如果想進一步了解，最直接是先看論文與 CapTraceBench 的設定，再對照自己團隊有沒有公開 trace、審計留痕或第三方驗證需求。項目現階段重點在研究驗證，不是即裝即用型產品，所以較適合安全研究、代理平台、企業內部治理與學術實驗場景。

保留 auditability：輸出、工具使用證據、執行順序與 verifier 需要的欄位仍可保留
加入 protection：公式、thresholds、implementation details、tool dependencies、private heuristics 會被抽象化或隱去
提供 provenance 能力：可選 behavioral watermark hooks，方便分析下游是否重用行為模式
配套基準 CapTraceBench：涵蓋 75 個 long-horizon tasks、154 個 curated skills、7 個領域

這項目特別之處在於它不是把整段軌跡直接遮掉，而是把「需要審核的內容」與「可複製的技能細節」拆開處理，再加上 behavioral watermarks 做來源分析。論文數字亦頗具說服力：在代表性的 trace reuse 方法下，REDACT 將 normalized skill transfer (NST) 由原始軌跡的 44.7% 至 67.1%，壓到低於 no-skill baseline；獨立 watermark 偵測的 true detection 達 93.6% 至 100.0%，false alarm rate 最多 1.9%。

相關內容不只包括 RedAct，也包括用來測試外洩風險的 CapTraceBench，以及文中聚焦的 agent traces、procedural skills、behavioral watermarks、black-box trace disclosure 等概念。若你的項目需要公開代理操作紀錄，又不想把核心流程白白送出去，這個研究值得細看；若你要的是完整產品化流程，現時資料仍較偏研究原型。

GitHub： https://github.com/XuShuwenn/RedAct

Paper： https://arxiv.org/pdf/2606.10813

Categories: 開源, 香港科技大學, Agentic, 框架

Orchestra-o1：多智能體協作框架拆解複雜多模態任務

2026 年 6 月 15 日

Orchestra-o1 由香港中文大學（CUHK）計算機科學與工程學系的 Fan Zhang 領銜，聯同北京大學、清華大學、同濟大學及 LIGHTSPEED 團隊共同開發。模型權重同步開源於 Hugging Face。

這個項目的定位是多智能體協作框架，針對文字、圖像、音訊、影片並存的「全模態」（omnimodal）場景，自動把複雜任務拆解成多個子任務，再分配給專責的 SubAgent 執行。MainAgent 負責規劃與協調，SubAgent 則配備搜尋、執行程式碼、影音分析等工具獨立運作，獨立子任務可同步執行以提升效率。

重點摘要：

層級式架構：MainAgent 統籌拆解任務，SubAgent 各司其職，避免單一模型疲於應付多模態輸入。
平行執行：無依賴的子任務同步進行，加快整體處理速度。
DA-GRPO 訓練法：以 Qwen3-8B 為基礎，搭配 Decision-Aligned Group Relative Policy Optimization 與 LLM-as-judge 獎勵機制微調。
OmniGAIA 表現：在 OmniGAIA 基準測試取得 72.8% 準確率，領先第二名 10.3 個百分點。
開源生態：基於 Python 3.10+ 與 verl 框架，訓練需 8 張 H20 (96GB) GPU 單節點。

Orchestra-o1 的創新在於把「模態感知拆解」與「線上子智能體特化」結合，讓多模態協調不再依賴線性流程。適合需要處理多媒體資訊的研究團隊、Agent 開發者，以及關注 Computer-use agents（CUAs）與多模態模型應用的工程師。

效能方面，作者將 Orchestra-o1-8B 定位為同類開源全模態代理中最先進（SOTA），同時在商用模型（例如 GPT-5）推理腳本中亦提供整合，方便研究人員比較開源與閉源路線的差距。

GitHub： https://github.com/zfkarl/Orchestra-o1

Paper： https://arxiv.org/pdf/2606.13707

Categories: 開源, 香港中文大學, Agentic, 模型, 深度學習, OpenClaw, 框架

[技術文章] 從聊天機械人到數碼同事：AI 怎樣學會「持續工作」

2026 年 6 月 15 日

這項文章由騰訊優圖實驗室、清華大學、中山大學、中南大學及伊利諾大學芝加哥分校的研究團隊共同撰寫，提出一個核心觀點：大語言模型（Large Language Models, LLMs）正從「聊天機械人」邁向「數碼同事」，關鍵差異在於能否持續完成工作，而非只給出對話式回應。

團隊將這個轉變拆成兩個互相牽引的維度。第一個是「認知核心」的進化：LLMs 從依賴下一個詞預測的「快思維」，走向會運用推理時間計算、長思維鏈（Chain-of-Thought）、反思及強化學習的「思考型 LLM」，讓推理過程更謹慎可靠。第二個是「工具輔助任務執行」的進化：從臨時呼叫外部工具的 Agent，走向類似 OpenClaw 風格的工作站系統，配備持久化的工作區（Workspace）、可重用的技能（Skill）、驗證迴圈及治理機制。

文章特別強調「Workspace + Skill」這個範式是關鍵躍升。它讓原本零散的工具操作，變成像同事般有狀態記憶、可重用流程、能完成任務並累積經驗的工作模式。數據結構也從簡單的指令—回應配對，演進為「狀態—動作—觀察」的軌跡記錄；評估方式則從靜態基準測試，轉向沙盒化、可審計、能自我進化的 AI 生態系統。

這份內容適合關注 AI Agent 發展、想了解 LLM 下一代形態的研究者與產品設計者。讀者可透過項目網站（from-chatbot-to-digital-colleague.github.io）取得完整論文與相關資源。

重點摘要：
– 由騰訊優圖實驗室主導，聯同清華、中山、中南及 UIC 共同研究
– 提出從「聊天機械人」到「數碼同事」的範式轉移
– 認知層面：從快思維走向推理驅動的「思考型 LLM」
– 執行層面：從臨時工具呼叫走向持久化 Workspace + Skill 系統
– 評估方式同步轉向沙盒化、可審計的 AI 生態系統

Paper： https://arxiv.org/pdf/2606.14502

Categories: 開源, Agentic, 模型, 模型訓練, 框架, 清華大學

Surflo 用全域狀態重建一致 3D 表面

2026 年 6 月 14 日

Surflo: a single coherent surface decoded from one global state

Surflo 是一個由多張未對位影像重建 3D 表面的項目。它先把數量可變的輸入視角整合成單一 global latent state，再用 flow-matching ODE 逐點生成表面，目標是避免傳統每個視角各自輸出、最後難以拼合的問題。

這個項目的核心做法，是把 N 張影像壓縮成固定大小的全域狀態 z，當中只有 K=128 tokens，之後再按需要解碼任意數量的表面點。因為每個點可獨立生成，同一次編碼之後便能輸出不同解析度，最高提到可處理 M up to 10^6 oriented points。

為了令獨立生成的點仍然保持同一個連貫表面，Surflo 加入 communication guidance 機制，利用 shared rendering loss 在 ODE 積分過程中協調鄰近點。系統會把點轉成 3D Gaussians，再用 Gaussian Splatting 渲染，藉此減少局部表面互相矛盾的情況。

Surflo: Consistent 3D Surface Flow from a Global State

Watch this video on YouTube

重點項目：
– 支援 variable number of unposed images，不要求固定視角數量
– 以單一 global state 取代 per-view tokens 堆疊，控制表示大小
– 可按需要解碼任意表面解析度，不必重新編碼
– 在 8 個 benchmarks、2 到 32 views 條件下報稱達到 state of the art performance
– 另提供真實場景資料集，約 10.5K DL3DV scenes，包含 full scene meshes

這類項目較適合做多視角 3D 重建、場景數碼化，或者需要由少量到多量視角靈活輸入的研究工作。文中亦點名對比現代 feed-forward 3D 模型如 VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3；若你關心的是如何由多張相片穩定得到同一個完整表面，Surflo 的全域狀態設計值得留意。

模型列表：VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3。

項目： https://anttwo.github.io/surflo/

Categories: 開源, Agentic, 3D, Meta, 框架

graphify：把雜亂資料變成可查詢知識圖譜

2026 年 6 月 14 日

graphify 是一個給 AI coding assistant 用的 skill，能把你的 codebase、文件、PDF、圖片、影片轉成可查詢的 knowledge graph。

它支援多種 AI 工具與 IDE，包括 Claude Code、Codex、Cursor、Gemini CLI、OpenCode、OpenClaw 等。

它較有新意的地方，在於 fully multimodal 與持久化設計同時出現。graphify 會用 Claude vision 從圖片、白板相片、示意圖抽取概念，再跟文字與程式碼內容接起來；同時用 SHA256 cache 只重跑變更過的檔案，令更新流程不會每次由零開始。

Graphify: Turn Your Codebase into a Queryable Knowledge Graph for Claude Code

Watch this video on YouTube

支援 code、PDF、markdown、screenshots、diagrams、whiteboard photos 等多種輸入
輸出不只一種，包含互動圖譜、Obsidian vault、wiki 頁面與報告檔
官方描述提到每次查詢可比直接讀原始檔案減少 71.5x tokens
提供 --update 與 --mode deep，適合持續整理變動中的資料集

這個項目較適合幾類人：長期維護大型 codebase 的開發者、要整理研究材料的人、會把文件與截圖混在一起存檔的知識工作者。若你的資料本來就很少、結構清楚，它的優勢未必會完全發揮；但對資訊來源分散、跨格式混雜的情境，graphify 顯得相當對症。

性能資料目前公開重點以 token 節省為主，屬於效率導向的訊號，不等於完整基準測試。相關技術與依賴可直接見到 Claude Code、Claude vision、Obsidian，以及知識圖譜輸出流程；若你想為 AI coding assistant 建立可追蹤、可累積的內容索引，這個項目有明顯可試價值。

支援工具表

工具 / 平台	安裝或啟用指令
Claude Code	`graphify install`
CodeBuddy	`graphify install --platform codebuddy`
Codex	`graphify install --platform codex`
OpenCode	`graphify install --platform opencode`
Kilo Code	`graphify install --platform kilo`
GitHub Copilot CLI	`graphify install --platform copilot`
VS Code Copilot Chat	`graphify vscode install`
Aider	`graphify install --platform aider`
OpenClaw	`graphify install --platform claw`
Factory Droid	`graphify install --platform droid`
Trae	`graphify install --platform trae`
Trae CN	`graphify install --platform trae-cn`
Gemini CLI	`graphify install --platform gemini`
Hermes	`graphify install --platform hermes`
Kimi Code	`graphify install --platform kimi`
Amp	`graphify amp install`
Kiro IDE/CLI	`graphify kiro install`
Pi coding agent	`graphify install --platform pi`
Cursor	`graphify cursor install`
Devin CLI	`graphify devin install`
Google Antigravity	`graphify antigravity install`

GitHub： https://github.com/safishamsi/graphify

Categories: 開源, Agentic, 框架

SpatialClaw：用程式碼推動空間推理代理

2026 年 6 月 14 日

SpatialClaw 是一個免訓練的空間推理框架，重點不是再加更多工具，而是改寫代理如何調用工具。它把程式碼當成動作介面，讓 Vision-Language Model 代理逐步寫入 Python cell，在同一個持續運行的 Jupyter kernel 內查看中間結果、再調整下一步判斷，目標是處理 3D、4D 以及影片場景中的空間理解問題。

這個項目的新意，在於它避開單次執行整段程式或僵硬的 tool-call 方式。代理每次只提交一格程式，能結合 SAM3 segmentation、Depth-Anything-3 reconstruction、geometry utilities，以及 NumPy、SciPy、Matplotlib 這類科學運算庫，分析過程更像逐步查證，而不是一次過猜答案。

如果你想測試它，較合適的做法是用多視角圖片、影片片段，或需要判斷位置、距離、遮擋、移動關係的題目來跑。文件亦提到部署模型有明確硬件要求：FP8 版本需要 Linux 與 NVIDIA Hopper（H100）或更新 GPU；若手上是 A100 或 L40S，則可改用 models.json 內列出的 AWQ 或 GPTQ Int4 條目，並沿用相同 served_name，模型設定毋須重改。這也反映 NVIDIA 近年在 Robotic 與 World Model 相關項目上的投入相當積極。

成績方面，公開資料指出它在 20 個空間推理基準取得 59.9% 平均準確率，比先前最佳空間代理高 11.2 個百分點。更重要的是，這個結果據稱在相同 system prompt、工具組合與 hyperparameters 下完成，覆蓋六個 VLM 骨幹，代表它的提升未必只靠特定 benchmark 微調。

屬於空間推理代理框架，解決 VLM 在 3D/4D 關係判斷上不夠靈活的問題
核心方法是以程式碼作為動作介面，逐步執行與修正分析
支援的感知模組包括 SAM3 segmentation、Depth-Anything-3 reconstruction 與 geometry utilities
公開結果涵蓋 20 個 benchmarks，平均準確率為 59.9%
相關模型家族包括 Qwen3.5、Qwen3.6、Gemma4，規模由 26B 至 397B

這個項目特別適合研究 Computer-use agents、空間智能、機械人感知，或者想比較 tool-augmented agent 與 VLM 推理流程的人。若你關心的不是聊天表現，而是模型能否一步步觀察畫面、調工具、修正推論，SpatialClaw 展示了一條幾有說服力的路線。

GitHub： https://github.com/NVlabs/SpatialClaw

項目： https://spatialclaw.github.io/

Categories: 開源, NVIDIA, Agentic, 模型, 視覺模型

Data2Story：把數據變成可查證故事

2026 年 6 月 10 日

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目，核心目標是把原始資料整理成可查證的多模態故事，處理的不只是「寫得像文章」，而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看，它較接近給 AI 代理協作的工作流，而不是單一模型。

它的用法算是明確：先準備資料集，再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁，以及 viewer.html 證據檢視頁，適合先用官方網站展示的案例感受效果，再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方，在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理，像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號，viewer.html 強調每句內容可追溯來源，對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

支援 Claude Code、Codex 及其他 coding agent
可把資料轉成多模態故事，而非只輸出文字
會產生獨立版本項目資料夾，方便保留不同結果
提供 evidence viewer，讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊，或者想把表格與資料故事化，這個項目有不錯的參考價值。至於效能與量化評測，儲存庫首頁未見具體指標；現階段較適合先看網站範例與論文，再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面，項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI，媒體生成預設經 OpenRouter 處理。

GitHub： https://github.com/QinghongLin/data2story-skill

Paper： https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Agents’ Last Exam 評測框架：當 AI 代理考專業試

2026 年 6 月 10 日

這個開源項目是一套AI 代理人評測基準，專門用來量度 Computer-use agents（CUAs）在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺，去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距，而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別，在於它把任務對齊到美國 O*NET / SOC 2018 職業分類，涵蓋 55 個非實體行業，例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計，而是由 300 多位業界專家收集並驗證，因此每一條任務都貼近真實工作場景，而且配有隱藏參考答案與確定性評分機制，杜絕模型「走旁門左道」蒙混過關。

在技術架構上，評測框架由三部分組成：代理執行環境（harness） 負責驅動底層基礎模型；虛擬沙箱（sandbox） 模擬真實作業系統環境；任務單元（task） 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集，整個項目正在朝 5,000 題目標推進。評測時，框架會在雲端建立沙箱、讓代理人完成任務，再以確定性評分器評分，過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定（約 10 分鐘，現有 $300 美元免費額度足以應付），之後即可在自家模型上執行 hello-world 任務以熟悉流程，進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者，以及任何想用客觀分數比較不同 CUA 表現的人。

代理評測基準：專為 Computer-use agents 設計的真實工作流程測試。
行業覆蓋廣：對齊 O*NET / SOC 2018，涵蓋 55 個行業，公開 150 條任務。
結果可驗證：採用隱藏參考答案與確定性評分器，公平且可重現。
雲端沙箱環境：在 Google Cloud 內建立虛擬機重現真實作業流程。
社群共創：由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub： https://github.com/rdi-berkeley/agents-last-exam

項目： https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

Bayesian-Agent：讓代理流程愈跑愈準

2026 年 6 月 10 日

Bayesian-Agent 是一個 Bayesian self-evolving agent framework，更準確地說，它像是疊在代理系統之上的演化層：把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數，而是調整推理階段可見的證據、失敗模式與流程選擇，目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方，在於它不要求你由零重建整套系統。文件顯示它支援三種路線：從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說，這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness，內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture；同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架，而是用可攜的 trajectory schema 和 adapter boundary，令 Skills 演化結果能跨環境沿用。

核心定位是 Bayesian Skill Evolution，不是單純聊天模型
可把 verified success／failure evidence 轉成可重用 Skills 與 SOPs
支援 full-run evolution、incremental repair、cross-harness adaptation
內建 Bayesian Evidence Model，亦保留 Beta-Bernoulli backend 作 ablations
適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面，公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果，並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試，但這裡未見完整數字，較穩妥的判斷是：項目已朝可比較、可驗證的方向整理實驗，而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目，尤其需要判斷何時停止、重試或重寫流程，Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub： https://github.com/DataArcTech/Bayesian-Agent

項目： https://dataarctech.github.io/Bayesian-Agent/

Categories: 開源, 香港科技大學, Agentic, 框架

TaskMem：教多模態智能體學會選擇性記憶

2026 年 6 月 2 日

多模態智能體在持續觀察環境時，會接收海量且不斷累積的視覺與語言資訊。若把所有內容都存進長期記憶，既不實際也容易雜訊過多。Task-Focused Memorization for Multimodal Agents 這份研究，把焦點放在一個根本問題：智能體到底應該記住什麼？

來自 ByteDance Seed 與復旦大學的作者群提出名為 TaskMem（Task-focused Memorization Policy Learning） 的框架，把記憶生成視為一項可學習的策略。系統採用兩階段訓練：第一階段先學習怎樣記得準確，第二階段則在部署後，根據近期遇到的任務調整一個 adapter，使基礎多模態大型語言模型（MLLM）偏向記錄與任務相關的內容。整個過程以強化學習驅動，獎勵訊號來自真實任務的表現。

為了評估記憶品質，研究團隊將 VideoMME、EgoLife 與 EgoTempo 改造成串流基準，模擬智能體邊觀察邊回答的場景，且回答時只能依賴記憶，不能翻看原始影片。基於 Qwen3-VL-30B-A3B，TaskMem 在三個基準的 VQA 準確率分別提升 6.3%、7.0% 與 5.3%，並在多項指標上超越 Gemini-2.5-Pro、GPT-5.2 等大型模型。

這項工作對從事多模態智能體、機器人記錄系統或長期對話助手開發的研究者特別有參考價值，因為它把「該記什麼」變成可優化的決策，而非寫死規則。對於關注世界模型與持續學習（continual learning）的團隊，TaskMem 亦提供了一個結合任務回饋與記憶策略的可行路徑。

重點摘要：

核心問題：多模態智能體面對資訊洪流，需要學會選擇性記憶。
方法：以強化學習訓練記憶策略，分為基礎保真度與任務相關性兩階段。
評估方式：將三個影片基準改造成串流設定，僅以記憶回答問題。
成效：在 VideoMME、EgoLife、EgoTempo 上 VQA 準確率提升 5.3% 至 7.0%。
適用對象：研究多模態智能體、機器人記憶與持續學習的開發者與學者。

項目： https://taskmem.github.io/

Categories: 開源, 字節跳動, Agentic, OpenClaw, 框架

Page 7 of 14

« Previous 1 … 5 6 7 8 9 … 14 Next »