Matrix‑Game 3.0 是一個基於 Diffusion Transformer(DiT)的記憶增強世界模型,目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成,用於第一人稱、第三人稱等遊戲/虛擬世界場景。它能根據滑鼠+鍵盤輸入一邊生成新畫面,一邊維持場景長時間的一致性(例如分鐘級序列),並可擴展到 2×14B 甚至 28B MoE 規模。
三大技術層面
- Data Engine
- 用 Unreal Engine 生成合成資料,加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強,產出高品質的 Video–Pose–Action–Prompt 四元資料。
- 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
- 記憶增強模型(Memory‑augmented DiT)
- 基礎模型是一個統一的雙向 DiT,把過去的潛在畫面、當前加噪畫面與動作輸入(滑鼠/鍵盤)放在同一個架構裡。
- 用 residual error buffer 收集預測殘差,再以「error injection」把誤差加回訓練,讓模型學會在長時間序列上自我修正,增強長時一致性。
- 加入 camera‑aware memory retrieval,只撿選視角相關的歷史畫面作為記憶條件,用 Plücker 編碼處理幾何關係,並用一個「sink latent」(第一幀)錨定場景整體風格。
- 高效實時推論(Distillation + Quantization)
- 採用多段式的自生成 few‑step distillation(基於 Distribution Matching Distillation),讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程,做到訓練與推論對齊。
- 搭配 INT8 量化、輕量化 VAE 解碼器(MG‑LightVAE)以及 GPU 加速的記憶檢索,單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS,而 2×14B 模型則在更長時間和更複雜場景下表現更好。