Matrix-Game 3.0 記憶增強世界模型

Matrix‑Game 3.0 是一個基於 Diffusion Transformer（DiT）的記憶增強世界模型，目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成，用於第一人稱、第三人稱等遊戲／虛擬世界場景。它能根據滑鼠＋鍵盤輸入一邊生成新畫面，一邊維持場景長時間的一致性（例如分鐘級序列），並可擴展到 2×14B 甚至 28B MoE 規模。

三大技術層面

Data Engine
- 用 Unreal Engine 生成合成資料，加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強，產出高品質的 Video–Pose–Action–Prompt 四元資料。
- 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
記憶增強模型（Memory‑augmented DiT）
- 基礎模型是一個統一的雙向 DiT，把過去的潛在畫面、當前加噪畫面與動作輸入（滑鼠／鍵盤）放在同一個架構裡。
- 用 residual error buffer 收集預測殘差，再以「error injection」把誤差加回訓練，讓模型學會在長時間序列上自我修正，增強長時一致性。
- 加入 camera‑aware memory retrieval，只撿選視角相關的歷史畫面作為記憶條件，用 Plücker 編碼處理幾何關係，並用一個「sink latent」（第一幀）錨定場景整體風格。
高效實時推論（Distillation + Quantization）
- 採用多段式的自生成 few‑step distillation（基於 Distribution Matching Distillation），讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程，做到訓練與推論對齊。
- 搭配 INT8 量化、輕量化 VAE 解碼器（MG‑LightVAE）以及 GPU 加速的記憶檢索，單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS，而 2×14B 模型則在更長時間和更複雜場景下表現更好。