AHA-WAM:讓機械人決策一致的世界動作模型

PDF

機械人學習操作技能時,往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上,導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM(Asynchronous Horizon-Adaptive World-Action Modeling)項目,就是要把兩者拆開來處理。

核心架構:雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer(DiT)分支:低頻的 video DiT 負責長程的視覺世界規劃,並利用滾動式 K/V 記憶體儲存可重用的上下文;高頻的 action DiT 則接收本體感覺訊號,向 video DiT 查詢所需上下文後,即時產生短時閉環動作區塊。兩者各司其職,避免互相拖累。

兩項關鍵訓練與推論機制

  • Horizon-Adaptive Offset Training(水平自適應偏移訓練):讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
  • Observation-Guided Video-Context Routing(觀察引導的視覺上下文路由):根據最新觀察調整快取的規劃上下文,無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中,AHA-WAM 達到 92.80% 平均成功率,且無需任何機械人數據預訓練;在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面,閉環頻率達 24.17Hz;經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz,相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略,以及追求高頻閉環控制的開發團隊;其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目: https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 百度, 上海人工智慧實驗室

SpatialWorld:測試多模態代理空間理解的統一基準

SpatialWorld framework overview

SpatialWorld 是一個用來測試 Multimodal Large Language Models(MLLMs)與代理能力的 benchmark。它把 8 個不同的 3D 模擬後端整合成同一套 observation–action 介面,讓模型只靠自然語言指令、第一身 egocentric RGB 畫面,以及統一的文字動作指令完成任務。

如果你想知道一個模型是否真的懂得在環境中探索、轉向、移動、判斷位置與完成多步驟任務,SpatialWorld 提供了較一致的測試方法。它包含 760 個人工標註任務,覆蓋家居、出行、協作與數碼 3D 遊戲等場景,並以 human-validated terminal-state verifiers 判定結果。

讓代理輸入文字動作,例如 Move、Rotate,再由 action parser 轉成各個模擬器原生指令。這種做法的重點,是避免每個 simulator 各有一套流程,令不同模型之間較容易作橫向比較。

  • 統一 8 個 3D backends,減少 simulator-specific pipelines 帶來的比較困難
  • 只提供 vision-only partial observability,更接近代理逐步探索的情況
  • 除了 task success rate(TSR),亦會看 step efficiency(SE),不只比較有沒有完成
  • 已評估 15 個代理,方便對照現有模型表現

從公開結果看,這個項目揭示了目前模型的限制。GPT-5 的平均 TSR 為 17.4%,領先的 open-source 模型 Qwen-3.5 為 14.1%;若看 Physical Overall TSR,GPT-5 只有 14.4%,Qwen-3.5-397B-A17B 為 12.2%。這表示模型即使能理解圖片與文字,也未必能穩定完成需要空間推理與長步驟規劃的任務。

相關模型有 GPT-5、Qwen-3.5、Qwen-3.5-397B-A17B 與 Gemini-3.1-Pro,其中 Gemini-3.1-Pro 在 digital 3D games 達到 39.0% TSR。若你是做 agent、embodied AI、MLLM 評測,或者想比較不同模型在互動式空間任務的差異,SpatialWorld 會是一個很有參考價值的項目。

GitHub: https://github.com/Hongcheng-Gao/SpatialWorld

項目: https://spatial-world.github.io/

Categories: 香港大學, 多模態模型, 框架, 清華大學, 北京大學

Echo-Memory 讓世界模型認得回家的路

Echo-Memory paper teaser and workflow

當 AI 影片模型控制鏡頭離開某個場景再折返時,常常會「認錯地方」——同一條街、同一件家具,回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的,正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制:只更換「記憶模組」,其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片(action-to-video)模型作為共用底座,把記憶方式分成四大類——Context(原始幀滑窗)、Compression(壓縮後的學習 token)、Spatial(顯式空間讀寫狀態)、State-Space(區塊式 SSM 遞迴更新)。所有變體都掛在相同的寫入—讀取介面上,差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定,讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言,項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory,並附上 SpatialVID 子集的動態訓練池設定文件,開發者指南亦提供中英雙語流程。評測方面,項目提供 GT replay、in-domain 180 度折返,以及 open-domain 編輯式回訪三種探測腳本,涵蓋靜態回放和場景重訪兩個維度。

要注意的是,目前的權重僅限 Wan 2.1 1.3B(epoch-0),Wan 2.2 以及 5B/14B 多尺度底座、以及超越靜態重訪的動態評測,仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成,或是想在 LoRA/記憶外掛(memory adapter)方向動手的人,這個項目提供了一個難得的可重現基準;對一般讀者來說,它也示範了當鏡頭「回家」時,AI 為何會迷路、又該怎麼讓它記路。

重點摘要:

  • 統一底座、只換記憶:以 Wan 2.1 1.3B 為共用骨幹,比較 Context、Compression、Spatial、State-Space 四種記憶家族。
  • 可控變因設計:所有模組共享寫入—讀取介面,差異集中在「存什麼、怎麼取回」。
  • 完整可重現資源:公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
  • 三種回訪探測:GT replay、in-domain 180 度折返、open-domain 編輯式回訪,分別檢驗重播與折返記憶。
  • 未來路線:Wan 2.2、5B/14B 多尺度底座與動態評測仍待補齊。

GitHub: https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目: https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 框架, 清華大學, 北京大學

圖片編輯也要動腦?RE-Edit 幫 AI 學會看邏輯

Front Page

現時不少 AI 圖片編輯工具,表面上改得唯肖唯妙,細看卻經常出現「睇落合理、其實犯駁」的情況。來自浙江大學 ReLER Lab 與香港大學的團隊推出 RE-Edit,正是針對這個盲點而設計的基準測試。

RE-Edit 全名為 REasoning-aware image Editing,包含 1,000 個精選樣本,並劃分成五個推理維度:物理(physical)、環境(environmental)、文化(cultural)、因果(causal)和指涉(referential)。每一條題目都刻意設計成「畫面睇落合理,但忽略了潛在邏輯」的情境,用以測試模型能否理解指令背後的隱含限制。

配合基準,團隊亦提出輕量級的後修補方案 EditRefine。做法是先讓多模態大型語言模型(MLLM)診斷初稿失敗之處,再產生帶有思維鏈(chain-of-thought)的重新編輯指令,由原本的擴散模型執行。這個「診斷—重做」流程可以套用在 FLUX.2 Dev、Qwen-Image-Edit 等不同執行器上,毋須重新訓練底層模型。

整套系統以 YAML 設定檔驅動,輸出會保留原圖、初稿、EditRefine 修補稿、chain-of-thought 文本以及重新編輯指令,方便逐個維度比對。對從事 AI 圖像編輯研究、產品測試或內容審核的團隊而言,RE-Edit 提供了一個可量化邏輯錯誤的測試場;對一般讀者來說,它提醒我們「改張相」背後其實牽涉文化、物理因果等多重常識。

重點摘要

  • 1,000 個樣本橫跨五個推理維度,專門捕捉「畫面合理但邏輯犯駁」的失敗案例。
  • EditRefine 以 model-agnostic 方式插入推理步驟,可搭配 FLUX.2 Dev、Qwen-Image-Edit 等不同模型使用。
  • 評審採用 Qwen3-VL-30B 對 IF、SC 等指標作自動化判分。
  • 設定檔以 YAML 管理,輸出包含初稿、refined 稿、CoT 文本與重編指令,方便追溯。
  • 適合研究 AI 圖像編輯、內容審核及多模態推理的團隊作為統一基準。

GitHub: https://github.com/Yixuan-Ding-ZJU/RE-Edit

Categories: 開源, 香港大學, 影像處理, 框架

DRDD:用兩階段拆解擴散模型,更省數據的圖像轉譯方案

Main figure

圖像到圖像轉譯(Image-to-Image Translation, I2I)涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務,傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models(DRDD)嘗試用一套架構同時處理這些任務,並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段:第一階段負責加入雜訊,達到所謂的「域調和」(domain harmonization)與流形抬升(manifold lifting);第二階段則在固定雜訊下做決定性的殘差擴散,專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題,因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練,DRDD 在配對數據稀缺時仍能保持表現,這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試,涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集,並使用 LPIPS 等指標評估。論文亦提供理論與實證分析,說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師,尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上,以及 Conda。預訓練權重可從 Quark 或其他途徑取得,並依說明放入 ./pretrained_models 目錄。

重點摘要:
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段,保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據,降低對配對樣本的依賴。
– 相容主流擴散模型,可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構,鼓勵社群以現有擴散骨幹(如 DDPM 系列)進一步測試與延伸。

GitHub: https://github.com/HKU-HealthAI/DRDD

Paper: https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

AlphaGRPO:能自我修正的多模態生成

Og image

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架,重點係令模型唔只係「生成」,而係會根據提示主動推理,並喺輸出有偏差時嘗試自行修正。網頁內容指出,佢主要面向文字生圖同相關編輯場景,目標係改善細節理解、構圖一致性,同埋對隱含要求嘅掌握。

呢個方法特別之處,在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型,而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward:先將複雜指令拆成多個可核實嘅細問題,再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋,避免只靠單一分數太過籠統。

如果你想理解點樣使用,概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法,而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師,或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

  • 支援推理型文字生圖,能更主動補足用家未明講嘅意圖
  • 可做自我反思式修正,生成後再檢查並調整錯配內容
  • 回饋機制較細緻,將要求拆解成可驗證項目再評估
  • 在多個生成基準上有一致進步,亦可遷移到編輯任務
  • 推論階段加入自我修正後,文中指最高可再提升 5.8%

就評估結果而言,頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準,以及 GEdit 編輯任務都有提升,而且編輯能力並非靠專門編輯訓練得來,反映泛化表現不俗。不過,具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核,審核通過後將予以發布。

網址: https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

HERMESV2:把3D理解與未來預測合而為一的自駕世界模型

HERMES++ overview

HERMES++是一個面向自動駕駛的統一世界模型,核心目標不是只做未來場景生成,而是同時處理3D場景理解未來幾何預測。這點很關鍵,因為多數方法通常偏重其中一端,導致語意理解與物理演化之間仍有落差。

實際使用上,它比較適合拿來當研究型框架:先把多視角輸入整理成BEV表示,再讓模型在共享表示上同時回答當前場景理解任務,並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合,這種設計能減少分散建模的成本。

這個專案最有意思的創新,在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊,再加入LLM-enhanced world queriesCurrent-to-Future LinkJoint Geometric Optimization,讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下:
– 以單一框架同時支援3D理解與未來點雲/幾何預測
– 使用BEV表示壓縮多視角輸入,保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看,HERMES++最適合用在需要「理解現在、推演未來」的自駕研究,例如未來場景模擬、感知與預測聯合建模,或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現,但若要評估實務部署價值,仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型,專案內容明確提到會結合大型語言模型(LLMs)進行語意知識轉移;不過實際採用的基礎模型細節,從目前提供資訊中不宜過度推定。整體而言,這不是入門型套件,而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

ComboStoc 擴散模型訓練更快的關鍵

ComboStoc samples

ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作,核心目標不是換掉整個模型架構,而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主,提供影像擴散模型、訓練腳本,以及預訓練權重,定位相當明確:拿來驗證論文方法,也適合已有 SiT 或相近擴散管線的人直接比較。

這個專案真正有辨識度的地方,在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地,它讓不同維度、patch,甚至可能的屬性使用非同步時間步,藉此更完整覆蓋高維資料中的組合空間;這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。

實務上,它延續 SiT 風格的實作思路,並提供基於 PyTorch DDP 的訓練流程,代表它不是紙上談兵,而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖,還能利用非同步時間步做更細緻的控制;若參考論文描述,這種機制對局部條件控制或結構化生成尤其有意義。

最能受益的族群,會是正在研究影像生成、擴散模型訓練效率,或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID,或想把相同模型延伸到更有屬性組合複雜度的任務,這個專案值得細看;至於 3D structured shape 的完整程式,儲存庫目前看來仍是後續補上。

  • 特色在於非同步 diffusion timestep,不是單純更換 backbone
  • PyTorch 實作,並提供 DDP 訓練腳本
  • 已附預訓練的 ComboStoc-XL-2 權重,可直接做採樣比較
  • 適合拿來研究高維資料中組合複雜度對生成品質的影響

Source: https://github.com/Xrvitd/ComboStoc

Categories: 開源, 香港大學, 影像模型, 模型

AnyRecon:使用視頻擴散模型進行任意視角3D重建

logo
OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時,最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型,該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境,為虛擬現實應用和互動媒體打開了可能性。然而,用戶應該意識到該工具需要強大的大型語言模型(LLM)才能達到最佳性能。

主要收穫包括:
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置,創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 開源, 香港大學, 香港中文大學, 影像處理, 模型

MultiWorld 可擴充的多代理、多視角視頻世界模型

Screenshot

MultiWorld 在可擴充的多代理、多視角視頻世界模型的開發上代表了一個重要的進步。這個專案對於那些希望在複雜環境中模擬多個代理和視角的人工智慧和機器人領域的研究人員和開發人員特別有價值。在深入研究 MultiWorld 時,首先需要理解其基礎概念:建立一個虛擬世界,讓多個代理能夠同時從各種角度進行互動和學習。這種設定不僅增強了模擬的真實感,還提供了一個堅實的平台,用於在動態和不可預測的情境中測試和優化 AI 算法。

在實際應用中,MultiWorld 通過將先進的機器學習技術與複雜的模擬環境相結合來運作。該系統允許創建詳細的虛擬世界,每個代理可以從其獨特的視角感知環境,與其他代理互動,並從這些互動的結果中學習。這種方法對於需要高度情境意識和適應性決策的應用特別有益,例如自動駕駛汽車導航或複雜的機器人任務。然而,需要注意的是,這種系統的複雜性也帶來了某些權衡。例如,運行多個代理和視角的計算需求可能相當大,需要強大的硬體和高效的資源管理。

從 MultiWorld 中受益最大的研究人員和開發人員是那些從事需要深入了解多代理互動和多視角感知的專案的人。這包括人工智慧研究、機器人技術,甚至遊戲開發領域的專業人士,這些領域中真實和動態的環境是必不可少的。通過利用 MultiWorld,這些專業人士可以創建更準確的模擬,從而做出更明智的決策和創新。然而,實施時必須清楚了解專案的目標和模擬環境的具體需求。

在考慮將 MultiWorld 用於專案時,有幾個因素需要注意。首先,系統的複雜性意味著需要對底層的機器學習演算法和模擬環境有深入的了解。這可能需要額外的培訓或與這些領域的專家合作。其次,運行模擬所需的計算資源可能是相當大的,因此仔細規劃和優化是必不可少的。最後,雖然 MultiWorld 為模擬多代理、多視角場景提供了一個強大的工具,但重要的是要認識到其侷限性,並考慮這些侷限性可能如何影響專案的結果。通過仔細權衡這些考慮因素,開發人員和研究人員可以最大化 MultiWorld 的好處,同時最小化潛在的缺點。

對於那些希望在多代理系統和多視角模擬領域取得進展的人來說,MultiWorld 提供了一個令人信服的機會。儘管在理解和資源方面需要大量的投資,但在增強模擬能力和改進 AI 算法方面的潛在回報是巨大的。對於那些準備應對挑戰的人,MultiWorld 為人工智慧和機器人領域的創新和發現提供了一個強大的平台。

Source: https://github.com/CIntellifusion/MultiWorld

Categories: 開源, 香港大學, 世界模型

Page 1 of 2
1 2