
由微軟研究院、浙江大學、阿德萊德大學及 Monash University 共同發表的 Mirage,主打一個名為「Latent Spatial Memory」的方法,目標是讓 AI 影片世界模型在長序列生成時,仍能維持空間一致性。傳統做法會把 3D 場景快取為點雲,再反覆渲染成 RGB 影像重新編碼,Mirage 則直接把靜態場景以 3D latent tokens 儲存,於潛在空間中完成讀取、去噪與更新,繞開了 RGB 來回轉換的開銷。
這個項目想解決的問題很明確:影片世界模型在長時間生成下,3D 快取會愈來愈大、速度愈來愈慢,但場景內容其實變化有限。 Mirage 把「場景記憶」與「生成流程」解耦,用一套 Initialize、Read、Denoise、Update 的記憶生命週期,讓模型在生成每個 chunk 時直接讀寫一份共享的潛在快取,省下重複編碼的成本。
依據官方項目頁公布的 World-R1 基準數據,Mirage 達到約 70.36 的 WorldScore 平均成績,生成速度達到 10.57 倍提升,3D 快取記憶體用量則降低約 55 倍。論文亦提供與 Spatia、Voyager、Gen3C、VMem 等四個基準的定性比較,覆蓋同一軌跡下的條件輸入結果。官方程式碼則標示為「Coming Soon」,目前較適合研究員先閱讀論文與項目頁示範影片。
這個項目特別適合研究影片世界模型、3D 場景理解或擴散模型加速的團隊與學生,亦可作為 generative world model 課程的延伸閱讀。 對一般讀者而言,它展示了把「記憶」留在潛在空間而不還原成像素,是兼顧一致性與效率的可行方向。
重點摘要:
- 核心方法:以 3D latent tokens 儲存靜態場景,避免 RGB render-and-reencode。
- 記憶生命週期:Initialize、Read、Denoise、Update 四個步驟跨 chunk 共享快取。
- 效率數據:World-R1 上生成速度約 10.57 倍、3D 快取記憶體降約 55 倍、WorldScore 70.36。
- 比較基準:Spatia、Voyager、Gen3C、VMem。
- 目前狀態:論文已公開,程式碼尚未釋出。