香港 – Page 5 – InferNews

RedAct 解決 tool-using 代理軌跡外洩難題

2026 年 6 月 15 日

RedAct 屬於框架類項目，核心作用是替 agent traces 做選擇性改寫，讓外界仍看得到審核需要的證據，例如工具呼叫、執行次序、中間決策與最終輸出，但較難直接重建可重用的 procedural skills。這個方向切中 Computer-use agents 與其他代理系統常見矛盾：透明度愈高，營運 know-how 愈容易流出。

這個項目由香港科技大學與中國科學院大學研究人員合作開發，作者包括 Shuwen Xu、Zhitao He 與 Yi R. (May) Fung。團隊關注的是 tool-using agents 公開執行軌跡後的安全問題：紀錄能幫人追查錯誤，但同時可能把公式、門檻值、工具選擇與驗證流程一併暴露。

如果想進一步了解，最直接是先看論文與 CapTraceBench 的設定，再對照自己團隊有沒有公開 trace、審計留痕或第三方驗證需求。項目現階段重點在研究驗證，不是即裝即用型產品，所以較適合安全研究、代理平台、企業內部治理與學術實驗場景。

保留 auditability：輸出、工具使用證據、執行順序與 verifier 需要的欄位仍可保留
加入 protection：公式、thresholds、implementation details、tool dependencies、private heuristics 會被抽象化或隱去
提供 provenance 能力：可選 behavioral watermark hooks，方便分析下游是否重用行為模式
配套基準 CapTraceBench：涵蓋 75 個 long-horizon tasks、154 個 curated skills、7 個領域

這項目特別之處在於它不是把整段軌跡直接遮掉，而是把「需要審核的內容」與「可複製的技能細節」拆開處理，再加上 behavioral watermarks 做來源分析。論文數字亦頗具說服力：在代表性的 trace reuse 方法下，REDACT 將 normalized skill transfer (NST) 由原始軌跡的 44.7% 至 67.1%，壓到低於 no-skill baseline；獨立 watermark 偵測的 true detection 達 93.6% 至 100.0%，false alarm rate 最多 1.9%。

相關內容不只包括 RedAct，也包括用來測試外洩風險的 CapTraceBench，以及文中聚焦的 agent traces、procedural skills、behavioral watermarks、black-box trace disclosure 等概念。若你的項目需要公開代理操作紀錄，又不想把核心流程白白送出去，這個研究值得細看；若你要的是完整產品化流程，現時資料仍較偏研究原型。

GitHub： https://github.com/XuShuwenn/RedAct

Paper： https://arxiv.org/pdf/2606.10813

Categories: 開源, 香港科技大學, Agentic, 框架

Orchestra-o1：多智能體協作框架拆解複雜多模態任務

2026 年 6 月 15 日

Orchestra-o1 由香港中文大學（CUHK）計算機科學與工程學系的 Fan Zhang 領銜，聯同北京大學、清華大學、同濟大學及 LIGHTSPEED 團隊共同開發。模型權重同步開源於 Hugging Face。

這個項目的定位是多智能體協作框架，針對文字、圖像、音訊、影片並存的「全模態」（omnimodal）場景，自動把複雜任務拆解成多個子任務，再分配給專責的 SubAgent 執行。MainAgent 負責規劃與協調，SubAgent 則配備搜尋、執行程式碼、影音分析等工具獨立運作，獨立子任務可同步執行以提升效率。

重點摘要：

層級式架構：MainAgent 統籌拆解任務，SubAgent 各司其職，避免單一模型疲於應付多模態輸入。
平行執行：無依賴的子任務同步進行，加快整體處理速度。
DA-GRPO 訓練法：以 Qwen3-8B 為基礎，搭配 Decision-Aligned Group Relative Policy Optimization 與 LLM-as-judge 獎勵機制微調。
OmniGAIA 表現：在 OmniGAIA 基準測試取得 72.8% 準確率，領先第二名 10.3 個百分點。
開源生態：基於 Python 3.10+ 與 verl 框架，訓練需 8 張 H20 (96GB) GPU 單節點。

Orchestra-o1 的創新在於把「模態感知拆解」與「線上子智能體特化」結合，讓多模態協調不再依賴線性流程。適合需要處理多媒體資訊的研究團隊、Agent 開發者，以及關注 Computer-use agents（CUAs）與多模態模型應用的工程師。

效能方面，作者將 Orchestra-o1-8B 定位為同類開源全模態代理中最先進（SOTA），同時在商用模型（例如 GPT-5）推理腳本中亦提供整合，方便研究人員比較開源與閉源路線的差距。

GitHub： https://github.com/zfkarl/Orchestra-o1

Paper： https://arxiv.org/pdf/2606.13707

Categories: 開源, 香港中文大學, Agentic, 模型, 深度學習, OpenClaw, 框架

InterleaveThinker 多步生成變得可控

2026 年 6 月 13 日

InterleaveThinker 是一個多代理生成流程工具，目標是替現有圖像生成器加入 interleaved generation 能力，即按步輸出文字與圖片交錯的內容。它想處理的，不是單張圖夠不夠精美，而是多個步驟之間是否連貫、是否跟指令一致。

這個項目的核心做法，是把工作拆成 planner agent 與 critic agent。前者先安排圖文序列和每一步任務，後者再檢查生成結果、有偏差就修正指令再生成，做法比單次提示更像一個會反覆校對的流程。

如果你想試它，方向很明確：先接上它已支援的生成器，再用多步任務測試，例如故事場景連續變化、視覺教學、摺衫步驟、角色互動或 embodied manipulation。儲存庫已列出多個可配合的模型端口，包括 Qwen-Image、Qwen-Image Lightning、FLUX.1-Krea-dev、Qwen-Image-Edit Lightning、FLUX.1-Kontext-dev Edit 與 FLUX.1-Fill-dev Fill。

公開資料顯示，它在 interleaved generation benchmark 的表現可與 Nano Banana 及 GPT-5 接近；在推理導向基準也有明顯提升，例如 WISE 由 0.47 升至 0.73，RISE 由 13.3 升至 28.9（4-step FLUX.2-klein）。這些數字反映它的價值主要在「多步一致性與修正能力」，不是單靠底層模型硬撐。

重點不在訓練全新生成器，而是增強現有 image generator
以 planner agent + critic agent 處理多步圖文任務
適合 visual narratives、guidance、embodied manipulation、long-horizon sub-task annotation
已公開相關模型：InterleaveThinker-Planner-8B、Critic-SFT-8B、InterleaveThinker-Critic-8B
另有訓練資料集：Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k、Interleave-Critic-RL-13k

對研究圖文代理、工作流編排，或者想把現有出圖模型拉進多步任務的人，這個項目很有參考價值。若你只想單次生成一張圖，它未必是最直接的選擇；但若你要的是連續幾步都講得通、畫面不走樣，InterleaveThinker 的定位相當清楚。

GitHub： https://github.com/zhengdian1/InterleaveThinker

項目：https://zhengdian1.github.io/InterleaveThinker-proj/

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

AHA-WAM：讓機械人決策一致的世界動作模型

2026 年 6 月 10 日

機械人學習操作技能時，往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上，導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM（Asynchronous Horizon-Adaptive World-Action Modeling）項目，就是要把兩者拆開來處理。

核心架構：雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer（DiT）分支：低頻的 video DiT 負責長程的視覺世界規劃，並利用滾動式 K/V 記憶體儲存可重用的上下文；高頻的 action DiT 則接收本體感覺訊號，向 video DiT 查詢所需上下文後，即時產生短時閉環動作區塊。兩者各司其職，避免互相拖累。

兩項關鍵訓練與推論機制

Horizon-Adaptive Offset Training（水平自適應偏移訓練）：讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
Observation-Guided Video-Context Routing（觀察引導的視覺上下文路由）：根據最新觀察調整快取的規劃上下文，無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中，AHA-WAM 達到 92.80% 平均成功率，且無需任何機械人數據預訓練；在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面，閉環頻率達 24.17Hz；經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz，相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略，以及追求高頻閉環控制的開發團隊；其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目： https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 百度, 上海人工智慧實驗室

Bayesian-Agent：讓代理流程愈跑愈準

2026 年 6 月 10 日

Bayesian-Agent 是一個 Bayesian self-evolving agent framework，更準確地說，它像是疊在代理系統之上的演化層：把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數，而是調整推理階段可見的證據、失敗模式與流程選擇，目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方，在於它不要求你由零重建整套系統。文件顯示它支援三種路線：從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說，這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness，內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture；同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架，而是用可攜的 trajectory schema 和 adapter boundary，令 Skills 演化結果能跨環境沿用。

核心定位是 Bayesian Skill Evolution，不是單純聊天模型
可把 verified success／failure evidence 轉成可重用 Skills 與 SOPs
支援 full-run evolution、incremental repair、cross-harness adaptation
內建 Bayesian Evidence Model，亦保留 Beta-Bernoulli backend 作 ablations
適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面，公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果，並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試，但這裡未見完整數字，較穩妥的判斷是：項目已朝可比較、可驗證的方向整理實驗，而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目，尤其需要判斷何時停止、重試或重寫流程，Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub： https://github.com/DataArcTech/Bayesian-Agent

項目： https://dataarctech.github.io/Bayesian-Agent/

Categories: 開源, 香港科技大學, Agentic, 框架

SpatialWorld：測試多模態代理空間理解的統一基準

2026 年 6 月 10 日

SpatialWorld 是一個用來測試 Multimodal Large Language Models（MLLMs）與代理能力的 benchmark。它把 8 個不同的 3D 模擬後端整合成同一套 observation–action 介面，讓模型只靠自然語言指令、第一身 egocentric RGB 畫面，以及統一的文字動作指令完成任務。

如果你想知道一個模型是否真的懂得在環境中探索、轉向、移動、判斷位置與完成多步驟任務，SpatialWorld 提供了較一致的測試方法。它包含 760 個人工標註任務，覆蓋家居、出行、協作與數碼 3D 遊戲等場景，並以 human-validated terminal-state verifiers 判定結果。

讓代理輸入文字動作，例如 Move、Rotate，再由 action parser 轉成各個模擬器原生指令。這種做法的重點，是避免每個 simulator 各有一套流程，令不同模型之間較容易作橫向比較。

統一 8 個 3D backends，減少 simulator-specific pipelines 帶來的比較困難
只提供 vision-only partial observability，更接近代理逐步探索的情況
除了 task success rate（TSR），亦會看 step efficiency（SE），不只比較有沒有完成
已評估 15 個代理，方便對照現有模型表現

從公開結果看，這個項目揭示了目前模型的限制。GPT-5 的平均 TSR 為 17.4%，領先的 open-source 模型 Qwen-3.5 為 14.1%；若看 Physical Overall TSR，GPT-5 只有 14.4%，Qwen-3.5-397B-A17B 為 12.2%。這表示模型即使能理解圖片與文字，也未必能穩定完成需要空間推理與長步驟規劃的任務。

相關模型有 GPT-5、Qwen-3.5、Qwen-3.5-397B-A17B 與 Gemini-3.1-Pro，其中 Gemini-3.1-Pro 在 digital 3D games 達到 39.0% TSR。若你是做 agent、embodied AI、MLLM 評測，或者想比較不同模型在互動式空間任務的差異，SpatialWorld 會是一個很有參考價值的項目。

GitHub： https://github.com/Hongcheng-Gao/SpatialWorld

項目： https://spatial-world.github.io/

Categories: 香港大學, 多模態模型, 框架, 清華大學, 北京大學

Echo-Memory 讓世界模型認得回家的路

2026 年 6 月 9 日

當 AI 影片模型控制鏡頭離開某個場景再折返時，常常會「認錯地方」——同一條街、同一件家具，回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的，正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制：只更換「記憶模組」，其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片（action-to-video）模型作為共用底座，把記憶方式分成四大類——Context（原始幀滑窗）、Compression（壓縮後的學習 token）、Spatial（顯式空間讀寫狀態）、State-Space（區塊式 SSM 遞迴更新）。所有變體都掛在相同的寫入—讀取介面上，差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定，讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言，項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory，並附上 SpatialVID 子集的動態訓練池設定文件，開發者指南亦提供中英雙語流程。評測方面，項目提供 GT replay、in-domain 180 度折返，以及 open-domain 編輯式回訪三種探測腳本，涵蓋靜態回放和場景重訪兩個維度。

要注意的是，目前的權重僅限 Wan 2.1 1.3B（epoch-0），Wan 2.2 以及 5B／14B 多尺度底座、以及超越靜態重訪的動態評測，仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成，或是想在 LoRA／記憶外掛（memory adapter）方向動手的人，這個項目提供了一個難得的可重現基準；對一般讀者來說，它也示範了當鏡頭「回家」時，AI 為何會迷路、又該怎麼讓它記路。

重點摘要：

統一底座、只換記憶：以 Wan 2.1 1.3B 為共用骨幹，比較 Context、Compression、Spatial、State-Space 四種記憶家族。
可控變因設計：所有模組共享寫入—讀取介面，差異集中在「存什麼、怎麼取回」。
完整可重現資源：公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
三種回訪探測：GT replay、in-domain 180 度折返、open-domain 編輯式回訪，分別檢驗重播與折返記憶。
未來路線：Wan 2.2、5B／14B 多尺度底座與動態評測仍待補齊。

GitHub： https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目： https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 框架, 清華大學, 北京大學

SWE-Explore-Bench：拆解編碼代理如何理解你的程式碼

2026 年 6 月 9 日

SWE-Explore evaluates repository exploration directly instead of only end-to-end repair.

SWE-Explore-Bench 由上海交通大學、香港中文大學等團隊推出，專門考核編碼代理在「真正落筆修改前」探索程式碼庫的表現。現有的 SWE-bench 等基準只給出最終通過與否的二元結果，難以分辨代理是因為找對位置而成功，還是碰巧蒙對。這個項目把探索這一步抽離出來單獨計分，更貼近診斷代理能力的本質。

具體做法是收集同一議題的多條成功修復軌跡，從中抽取代理實際讀取的程式碼行範圍，整合出共識的核心上下文，再保留部分模型獨有的可選上下文。代理需要輸出一份按行範圍排序的程式碼區域清單，評分涵蓋覆蓋率、排序品質、上下文效率，以及下游受限修補驗證四個維度。這種行級監督比傳統的檔案級定位更細緻，能揭示代理的真正瓶頸。

資料集涵蓋 10 種程式語言、203 個開源項目中的 848 個議題，並提供 OpenAI 相容的端點，方便接駁不同 LLM 進行行範圍精修。實測結果顯示，具備代理能力的探索器明顯領先傳統檢索器，現代方法在檔案層級已相當成熟，但行級覆蓋與高效排序仍是區分頂尖方案的分水嶺。

適合關注 SWE-agent、AutoCodeRover、OpenHands 等代理框架的研究者、開發者及基準設計者使用。對想了解自家代理「讀碼環節」強弱的團隊而言，這是一個值得放入評測管線的參考項目。

GitHub： https://github.com/Qiushao-E/SWE-Explore-Bench

Paper： https://arxiv.org/pdf/2606.07297

Categories: 開源, 香港中文大學, 編程, 框架

Stream3D-VLM 把串流影片變成 3D

2026 年 6 月 9 日

Stream3D-VLM 是一個 online 3D vision-language model，重點是直接從串流影片做即時空間理解，而不是等整段影片或整個場景收集完才分析。對想研究機械人、空間問答，或 3D 場景互動的人來說，這個項目處理的是「模型可否一邊看、一邊建立場景概念，再即時回答問題」這件事。

使用這個項目時，核心資源包括已公開的 Stream3D-VLM-4B 模型、Stream3D-1M Dataset，以及 Stream3D-Bench。資料方面未有直接釋出原始媒體，但有提供標註、GLB 與 RRD 等重建結果；GLB 可放入一般 3D viewer 逐步查看點雲，RRD 則可配合相機姿態與點雲記錄觀察完整重建流程。

Stream3D-VLM 加入 incremental geometry priors，令模型隨時間吸收對齊的 3D 幾何線索。項目亦提出 Visual-Spatial Feature Integration（VSFI）模組，以及 Geometry-Adaptive Voxel Compression（GAVC）模組，前者負責把幾何資訊逐步注入視覺串流，後者用 3D 結構去壓縮 visual tokens，減少長序列推理負擔。

團隊亦建立了可擴展的資料生成流程，整理超過 1M online spatio-temporal 3D QA pairs，並設計涵蓋 29 項任務的基準。項目聲稱在 online 與 offline 的 3D spatial understanding、reasoning、grounding 任務上，表現優於部分 proprietary 與 open-source models；不過文章未在這份資訊中列出完整數字，閱讀結果時仍要配合論文與實驗頁面一起看。

解決痛點：傳統 3D Large Multimodal Models 多數依賴離線處理，這個項目改為面向 streaming video。
主要方法：結合 autoregressive streaming control、VSFI 與 GAVC。
資料與基準：提供 Stream3D-1M Dataset 標註及 Stream3D-Bench，涵蓋 29 項任務。
可視化資源：支援 GLB 與 RRD，方便檢查增量重建與相機軌跡。
相關模型：已公開 Stream3D-VLM-4B，可作為了解整體能力的主要入口。

整體來看，Stream3D-VLM 最適合用來觀察 3D 多模態模型如何由「看完整段再答」走向「邊看邊答」。它未必是一般開發者即裝即用的輕量工具，但對研究串流場景理解、3D 問答、空間推理流程的人，這個項目有相當清晰的方向與實驗野心。

GitHub： https://github.com/hanxunyu/Stream3D-VLM

項目： https://stream3d-vlm.github.io/

Categories: 香港科技大學, 騰訊, NVIDIA, 多模態模型, 模型, 視覺模型, Robotic

AffordanceVLA：為機械臂加入「先想再做」的能力

2026 年 6 月 7 日

機械臂聽到「把杯子拿起來」這類指令時，傳統的視覺語言動作模型（Vision-Language-Action Model, VLA）往往要直接把影像和文字翻譯成關節角度，中間欠缺一個「思考」步驟。AffordanceVLA 嘗試在這個鴻溝上架一道橋：先讓模型預測結構化的可供性（affordance），再據此生成動作。

整個框架由三個專家模型組成，按單向的 UAA 注意力串接。Understanding Expert（M_und）以 PaliGemma（SigLIP + Gemma）為骨幹，把畫面、指令與機械臂自身狀態融合成統一的語意表示。Affordance Generation Expert（M_gen）以 Gemma 搭配可學習查詢，把上述表示解碼為三種可供性標記：Which2Act 判斷要操作的物件、Where2Act 標出二維互動熱區、How2Act 則推估三維幾何資訊。最後 Action Expert（M_act）以 flow matching 方式輸出整段動作序列（action chunk）。這個設計呼應了論文「Affordances serve as a perfect bridge」的核心想法。

由於現成機器人數據集中缺乏密集的可供性標註，作者額外提供了一條自動化標註管線，並以三階段漸進式課程訓練 MoT 架構。訓練時須留意 model.chunk_size 與 data.chunk_size 保持一致，否則動作 attention mask 會錯位；Which2Act 的 Flux loss 預設為 MSE，可在 src/models/which2act_decoder.py 頂端切換。

這個項目適合研究 VLA、機器人操作策略，或對可供性表示有興趣的開發者。需要一支能跑 PaliGemma 與 flow matching 的 GPU 環境，並準備好仿真或實機評測流程。論文中的模擬與真機實驗橫跨多種操作場景，顯示加入可供性中間層能提升泛化與精確度，但具體數字仍以官方報告為準。

重點摘要

以 Which2Act、Where2Act、How2Act 三段式可供性作為視覺、語言與動作之間的中間橋樑。
採用 MoT 架構，串接 PaliGemma 為基礎的 Understanding、Gemma 為基礎的 Affordance 與 Action Expert。
配套自動化可供性標註管線，緩解機器人數據標註不足的問題。
訓練採三階段漸進式策略，flow matching 輸出整段動作序列。
模型、訓練與標註腳本皆隨開源項目釋出，歡迎社群延伸。

GitHub： https://github.com/Skywalker-yqz/AffordanceVLA

Categories: 開源, 香港中文大學, 香港科技大學, 多模態模型, 模型, 模型訓練, 北京大學

Page 5 of 12

« Previous 1 … 3 4 5 6 7 … 12 Next »