MMBench2 點樣預測 World Model 幻覺

MMBench2 是一個圍繞 large generative world models 的研究型基準與開源項目，結合資料集、模型、訓練與評測程式。它主要處理 World Models 在生成未來軌跡時出現 hallucination 的問題，也就是畫面看似合理，但已經偏離真實動態與動作條件。

現有做法多數集中在把 world model 做得更大，或沿用固定的 open-loop rollout 範式觀察生成效果；作者認為這樣很難直接找出模型何時開始失真。這個項目改以「可預測、可預防」為核心，提出三種 runtime hallucination predictors：tokenizer round-trip residual、flow instability、inter-seed denoising variance，並配合 motion-normalized 版本做即時監測。

模型設計大致跟隨 Dreamer 4 路線，但重點不只在架構本身，而是把 coverage-aware training 與 targeted data collection 放入同一套流程。作者把 hallucination 視為 data coverage 問題，因此會重抽樣 under-represented 的 state-action space，亦會用 predictors 當 curiosity reward 做 closed-loop online data collection，這比單純加大模型更有方向性。

部署理解上，這個項目已提供互動式網頁介面，可在 CUDA GPU 上直接啟動，並用 live simulators 種出 rollout，連完整資料集都唔一定要先下載。官方亦公開 350M-parameter pretrained 與 finetuned world models，以及 427 小時、涵蓋 210 個 continuous control tasks、10 個 domain 的 MMBench2 dataset，方便研究團隊重做訓練、比較不同變體，或者先用 checkpoint 檢查 hallucination predictor 的表現。

項目性質：研究型 benchmark 加工具鏈，不只是單一模型
核心差異：把 hallucination 當成 coverage 問題，而非單靠更大模型硬推
可測內容：即時 predictor 疊圖、不同模型變體、互動 rollout 對照
相關模型：base、coverage_aware、combined 三類變體，以及 350M-parameter world models
適合情境：world modeling、planning、policy learning、模型安全檢查

這個項目較適合研究 world models、Robotic 控制、模型可靠性與安全的團隊閱讀和試驗。它未必是一般開發者即裝即用的應用工具，但作為 benchmark、分析框架與資料基礎設施，辨識 hallucination 成因與改善方向都相當清楚。

項目主頁 · GitHub · 模型