世界模型 – Page 3

MMBench2 點樣預測 World Model 幻覺

2026 年 6 月 28 日

MMBench2 是一個圍繞 large generative world models 的研究型基準與開源項目，結合資料集、模型、訓練與評測程式。它主要處理 World Models 在生成未來軌跡時出現 hallucination 的問題，也就是畫面看似合理，但已經偏離真實動態與動作條件。

現有做法多數集中在把 world model 做得更大，或沿用固定的 open-loop rollout 範式觀察生成效果；作者認為這樣很難直接找出模型何時開始失真。這個項目改以「可預測、可預防」為核心，提出三種 runtime hallucination predictors：tokenizer round-trip residual、flow instability、inter-seed denoising variance，並配合 motion-normalized 版本做即時監測。

模型設計大致跟隨 Dreamer 4 路線，但重點不只在架構本身，而是把 coverage-aware training 與 targeted data collection 放入同一套流程。作者把 hallucination 視為 data coverage 問題，因此會重抽樣 under-represented 的 state-action space，亦會用 predictors 當 curiosity reward 做 closed-loop online data collection，這比單純加大模型更有方向性。

部署理解上，這個項目已提供互動式網頁介面，可在 CUDA GPU 上直接啟動，並用 live simulators 種出 rollout，連完整資料集都唔一定要先下載。官方亦公開 350M-parameter pretrained 與 finetuned world models，以及 427 小時、涵蓋 210 個 continuous control tasks、10 個 domain 的 MMBench2 dataset，方便研究團隊重做訓練、比較不同變體，或者先用 checkpoint 檢查 hallucination predictor 的表現。

項目性質：研究型 benchmark 加工具鏈，不只是單一模型
核心差異：把 hallucination 當成 coverage 問題，而非單靠更大模型硬推
可測內容：即時 predictor 疊圖、不同模型變體、互動 rollout 對照
相關模型：base、coverage_aware、combined 三類變體，以及 350M-parameter world models
適合情境：world modeling、planning、policy learning、模型安全檢查

這個項目較適合研究 world models、Robotic 控制、模型可靠性與安全的團隊閱讀和試驗。它未必是一般開發者即裝即用的應用工具，但作為 benchmark、分析框架與資料基礎設施，辨識 hallucination 成因與改善方向都相當清楚。

項目主頁 · GitHub · 模型

Categories: 開源, 安全, 模型, 模型訓練, Robotic, 世界模型, 框架, Dataset 數據集

PhysiFormer 用座標預測物理運動

2026 年 6 月 27 日

PhysiFormer 是一個 diffusion transformer 模型，用世界座標中的 3D mesh 直接模擬物體運動。它要處理的是在已知初始頂點位置、速度與材質條件下，生成之後一段時間內合理可信的 4D 動態軌跡。

它和常見 video world models 的分別，在於不是在視角相關的像素空間推測畫面變化，而是直接預測 world coordinates 裡的 vertex trajectories。論文指出，這個做法不依賴手動指定的模擬結構、shape latent，亦不需要明確加入 rigid-transform prediction 一類限制，改用單一步驟的去噪擴散過程學習完整時域軌跡。

模型同時支援 rigid 與 elastic 物件，亦能處理 mixed-material dynamics、碰撞，以及靜止與移動中的多個物件。為了提升效率，PhysiFormer 採用在時間、空間與物件三個維度分解的 attention，令多物件推理保留 permutation-invariant 特性，毋須額外手動編碼物件身份。

以 3D coordinate diffusion 建模，重點是視角無關而且幾何結構清晰
用超過 100k simulated trajectories 訓練，覆蓋多種剛體與彈性體運動
可生成多個合理未來，而非只輸出單一路徑，適合存在未觀察不確定性的情境
它在 trajectory accuracy、rigidity preservation 與 momentum-based physical consistency 上明顯優於 autoregressive baselines

這類項目較適合 robotics、graphics、physical design，以及需要幾何感知 world modelling 的工作流。現有資料顯示它對未見過的真實幾何形狀、更大的物件數量，以及混合材質場景有一定泛化能力，但內容主要來自模擬資料與論文結果，真實部署表現仍要配合具體場景再驗證。

項目主頁： https://yimingc9.github.io/physiformer/

Paper： https://arxiv.org/pdf/2606.27364

Categories: 開源, Video, Content Creator, 3D, Vibe Coding, 模型, 模型訓練, 深度學習, Robotic, 世界模型, 框架

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

2026 年 6 月 26 日

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597

Categories: 開源, 阿里巴巴, Qwen, Agentic, MCP, 模型, 模型訓練, 深度學習, 世界模型, 框架

Holo-World 把天氣與鏡頭控制放進影片生成

2026 年 6 月 21 日

Repository image for XiangchenYin/Holo-World

Holo-World 是一個Video World Model項目，目標不是單純把靜態圖片變成短片，而是由單張首幀出發，按照指定的鏡頭路徑、物件動態與天氣指令生成影片，盡量保留原本場景結構。對一般讀者來說，可把它理解成「你先給一個世界起點，再要求系統改變拍攝方式與天氣，但不要連場景骨架都改走」。

它和常見影片編輯做法的分別，在於不少方法要先有來源影片，甚至依賴已經包含未來結構的重建場景；Holo-World 則強調 first-frame-anchored source-to-state 設定，只由一張圖開始。這種取向更靈活，但難度也高，因為模型要自己補出後續畫面，同時維持鏡頭控制、物件位置和天氣效果不互相打架。

這個項目核心包含 HoloStateData、Unified Scene Adapter 與 Scene-Weather Decomposed CFG。前者是為相機、物件、天氣建立統一監督樣本的資料集；後兩者則把「場景保持」與「天氣轉換」分開處理，目的是減少下雨、下雪、起霧時把整個場景細節一併沖散的情況。論文與項目頁提到，量化與視覺結果都顯示它在 weather-state generation 上優於 video-to-video weather editing baselines，但目前倉庫內容仍偏研究展示，未見完整安裝與推理流程，較適合先當作研究方向理解。

可由單張圖片出發，而非必須先提供完整來源影片
同時控制 camera、object、weather，比單一條件生成更完整
重點取捨在於維持場景結構一致，同時讓天氣效果夠明顯
較適合研究 world model、可控影片生成、合成場景模擬的團隊

如果你關心自動駕駛模擬、生成式影片控制，或想研究世界模型如何把幾種控制訊號整合，這個項目很有參考價值。相關模型與組件可留意 Holo-World 本身，以及資料集 HoloStateData；從現有資料判斷，它現階段更像研究型模型與方法展示，未必是即裝即用的生產工具。

GitHub： https://github.com/XiangchenYin/Holo-World

項目： https://xiangchenyin.github.io/Holo-World/

Categories: 開源, Video, Image, 工具, 庫, 模型, 視覺模型, 視頻模型, 世界模型, 中國

ImageWAM 用圖片編輯做機械人決策

2026 年 6 月 21 日

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目，核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程，處理機械人動作預測又慢又重的問題。它的判斷很鮮明：與其生成一段未來畫面，不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料，ImageWAM 推論時不一定要解碼出編輯後影像，而是使用單次 image editing forward step 產生的 KV caches，再交給 action expert 生成未來動作，方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM，因為倉庫已表明它是主力版本，並提供 4B 與 9B 變體。之後再按手上資料與算力，準備本地 datasets、pretrained weights、ActionDiT 初始化權重，然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%，並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引，但始終以作者公開的實驗設定為準，若換成不同機械人平台或資料分布，表現仍要再驗證。

支援多個相關模型：FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
FLUX.2 提供 4B 與 9B 版本，Ovis-U1 走較細模型路線
適合機械人控制、world modeling、action prediction 研究與基準測試
重點不是生成漂亮畫面，而是抽取對動作決策有用的變化資訊

整體來看，ImageWAM 不算面向一般用家的 AI 工具，更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成，這個項目提供了一個相當具體，而且有基準成績支持的反例。

GitHub： https://github.com/yuyangalin/ImageWAM

項目： https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, 庫, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

ActWorld 讓世界模型學懂互動

2026 年 6 月 18 日

ActWorld 是一個 Interactive World Model，目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作，對場景中的物件互動支援有限；這個項目則加入中途操作物件的能力，例如拾取、搬運、放置，令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題：一是缺少高質素的人與物件互動數據，二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此，團隊建立了 100K interaction video dataset，並以 chain-of-thought reasoning 產生 per-chunk captions；同時提出 hierarchical action-aware memory 和 persistent memory bank，讓模型按互動重要性保留歷史資訊，減少 action-forgetting。

使用時，讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷，ActWorld 適合研究 Interactive World Model、Computer-use agents（CUAs）相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

在單一模型內同時處理 long-horizon navigation 與 object interaction
透過 100K interaction video dataset 補足互動數據不足
用 hierarchical action-aware memory 保留較重要的互動歷史
以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明，實驗結果顯示它在不犧牲 viewpoint control 的情況下，interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主，若想深入理解效果，最應留意 Comparisons 及論文中的評測設定與限制。

項目： https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

Dataset：EgoCS-400K 補足遊戲世界模型數據缺口

2026 年 6 月 18 日

現有做法多數依賴 captioned videos、機械人數據，或模擬器軌跡來訓練 World Models，但前者缺少可執行動作與可靠狀態，後者又常受成本、場景規模或真人互動不足限制。EgoCS-400K 就是針對這個缺口而設的 Dataset 數據集，用公開的 Counter-Strike / CS2 demo 重建第一身視角，將影片、控制輸入、遊戲狀態與語言描述同步整理。

這個項目最核心的價值，不只是「有很多影片」，而是把 replay-grounded 資料做到 tick-level telemetry 對齊。資料同時包含 keyboard/mouse inputs、atomic actions、protected action chains、DP-based temporal segments，以及 multi-grained video-language captions，令模型不只看到畫面，還能追蹤玩家當下做了甚麼、為何畫面會變。

官方資料顯示，它涵蓋超過 400,000 段 first-person videos、10,000 小時以上 gameplay、1,000 多場比賽、40,000 rounds、13 張地圖，規模相當大。它支援的任務亦很明確，包括 action-conditioned future prediction、state- and event-aware scene rollout、replay-grounded captioning，以及 agent egocentric action understanding。

想了解內容，可先用公開 viewer 直接查看樣本，再按需要處理影片；若要生成 VLM captions，才需要 API key。較適合研究 World Models、Gaming Agent、Computer-use agents（CUAs）相鄰方向、影片理解，或想研究人類決策與視角變化如何連動的開發者。

類型屬於 Dataset 數據集，主要解決互動式 World Models 缺乏高質素「影片-動作-狀態-語言」對齊資料的問題
舊範式依賴 web video、robotics data 或 simulator traces，各自欠缺狀態、規模或真人軌跡
辨識度最高的設計，是 replay-grounded、tick-level telemetry 與多粒度標註放在同一條時間線
適合做未來畫面預測、事件感知生成、第一身動作理解與 captioning 研究
相關方向與模型包括 World Models、vision-language-action models、video generation models、Gaming Agent

如果你只想找一般遊戲影片數據，EgoCS-400K 可能顯得偏研究型；但若你在意動作如何驅動畫面與事件，這個項目的資料結構明顯比普通影片庫更有分析價值。它未必直接等於完整訓練方案，但作為高對齊、高時間解析度的基礎數據，定位相當清晰。

GitHub： https://github.com/EgoCS-400K/Dataset

Paper： https://arxiv.org/pdf/2606.18180

Categories: 開源, Agentic, API, Video, IDE, 動畫, 多模態模型, 庫, 模型訓練, Robotic, 世界模型, 香港城市大學, Dataset 數據集

BadWorld：如何解決癱瘓視覺世界模型的未來推演

2026 年 6 月 17 日

視覺世界模型（Visual World Models, VWMs）能從一張起始圖片，根據使用者動作序列合成出互動式的未來影片。現有做法多數沿用文字生成圖像或文字生成影片的對抗攻擊範式，但這類方法通常假設有固定的參考輸出或可取得的未來幀標籤。BadWorld 的作者指出，攻擊 VWMs 面對兩道根本限制：攻擊者根本拿不到真實的未來影片當作監督訊號，也無法預測使用者接下來會輸入什麼動作，因此傳統攻擊範式無法直接套用。

為此，團隊提出 BadWorld 框架，屬於一種安全研究工具，專門用來壓力測試自回歸式世界模型的時序穩健性。它繞過「需要未來監督」這道牆，採用自監督的速度擾動攻擊（self-supervised velocity attack），直接破壞模型早期的去噪動力學；同時，為了讓攻擊在未知動作下仍然有效，設計了軌跡自適應雙層優化（trajectory-adaptive bi-level optimization），主動挖掘困難的動作序列以鍛造「對動作無感」的擾動。

從測試結果來看，視覺上幾乎無法分辨的對抗圖片，能可靠觸發後續推演的災難性退化，出現去噪不完全、結構崩塌、控制訊號前後不一致等現象。這些發現對準備把世界模型應用於自動駕駛、機器人等安全關鍵場景的開發者是一記警鐘，同時也提供了一種可操作的隱私保護機制。

如果想自行驗證，可以針對 Matrix-Game-2.0 與 Astra 兩款開源世界模型測試。Matrix-Game-2.0 需約 32GB 顯示記憶體，Astra 則需 80GB，環境需要搭配 FlashAttention 與 NVIDIA Apex 等加速庫，並從 Hugging Face 下載預訓練權重。

屬於安全研究工具，針對視覺世界模型做對抗壓力測試。
突破傳統攻擊需「未來監督」的限制，採自監督速度擾動。
透過軌跡自適應雙層優化，鍛造對未知動作仍有效的擾動。
已在 Matrix-Game-2.0 與 Astra 上展示結構性崩潰。
對自駕、機器人、遊戲模擬等安全關鍵部署具警示意義。

GitHub： https://github.com/LinghuiiShen/BadWorld

Paper： https://arxiv.org/pdf/2606.16519

Categories: 開源, 香港, 香港理工大學, NVIDIA, Video, Image, 工具, 安全, 庫, 模型, 模型訓練, 深度學習, 世界模型, 清華大學, 框架

DreamX-World：可互動世界模型

2026 年 6 月 16 日

現時不少影片生成模型偏向做短片段合成，畫面可以靚，但一旦要控制鏡頭移動、返回之前看過的位置，或者在同一場景加入事件，往往會出現場景斷裂、風格飄移、前後不一致。DreamX-World 針對的正是這種固定範式的限制，把重點由「生成一段片」改成「維持一個可互動世界」。

這個項目屬於世界模型兼影片生成模型，目標是處理 interactive world simulation，讓文字或圖像驅動的影片不只會動，還能按事件提示改變場景。技術報告提到它支援 camera navigation、重訪已觀察區域，以及 compositional events，亦即多個事件可串連成多步世界變化，這比一般一次性生成更接近遊戲或模擬系統。

DreamX-World

Watch this video on YouTube

它的做法有幾個較鮮明的改動：先用 Unreal Engine 數據、gameplay footage 與 real-world videos 建立資料引擎，再加入 camera estimation 與嚴格過濾；之後用 E-PRoPE、causal forcing、DMD-style distillation、long-rollout training、Memory-Conditioned Scene Persistence 等方法，處理長時段生成常見的記憶斷層與色調漂移。報告亦指出，DreamX-World 1.0 在 5-second basic evaluation 拿到 84.76 overall score、73.75 camera-control score，整體分數高於 HY-WorldPlay 1.5 與 LingBot-World。

如果你想試這個項目，較合理的切入點是先看 DreamX-World-5B-Cam，因為它已公開模型與推理程式，主打 5 秒影片生成；想看長時段能力，就留意 Long-horizon DreamX-World-5B。它較適合研究 world model、互動影片、遊戲 AI 內容生成，或者想比較 autoregressive 與 bidirectional 路線差異的人。

Dreamx World 1.0

Watch this video on YouTube

已公開相關模型包括 DreamX-World-5B-Cam 與 DreamX-World-5B
5B-Cam 偏向短片與鏡頭控制，5B 則支援較長時段生成
核心賣點是場景持續性、鏡頭控制與事件組合，不只追求單段畫質
報告提到最高可達 16FPS（八張 RTX5090），反映它有考慮推理效率

整體來看，DreamX-World 的價值不在於再做一個普通 text/image-to-video 模型，而是把「可回看、可操作、可改變」放進同一個生成系統。現階段公開內容仍以模型與技術報告為主，但方法論已相當清楚，對世界模型這條路有明確野心。

GitHub： https://github.com/AMAP-ML/DreamX-World

Paper： https://arxiv.org/pdf/2606.16993

Categories: 開源, Video, Image, AI productions, 模型, 模型訓練, 視頻模型, 世界模型, 清華大學

Page 3 of 6

« Previous 1 2 3 4 5 6 Next »