LatentSpatialMemory：Mirage 影片世界模型：把 3D 記憶藏在潛在空間裡

由微軟研究院、浙江大學、阿德萊德大學及 Monash University 共同發表的 Mirage，主打一個名為「Latent Spatial Memory」的方法，目標是讓 AI 影片世界模型在長序列生成時，仍能維持空間一致性。傳統做法會把 3D 場景快取為點雲，再反覆渲染成 RGB 影像重新編碼，Mirage 則直接把靜態場景以 3D latent tokens 儲存，於潛在空間中完成讀取、去噪與更新，繞開了 RGB 來回轉換的開銷。

這個項目想解決的問題很明確：影片世界模型在長時間生成下，3D 快取會愈來愈大、速度愈來愈慢，但場景內容其實變化有限。 Mirage 把「場景記憶」與「生成流程」解耦，用一套 Initialize、Read、Denoise、Update 的記憶生命週期，讓模型在生成每個 chunk 時直接讀寫一份共享的潛在快取，省下重複編碼的成本。

依據官方項目頁公布的 World-R1 基準數據，Mirage 達到約 70.36 的 WorldScore 平均成績，生成速度達到 10.57 倍提升，3D 快取記憶體用量則降低約 55 倍。論文亦提供與 Spatia、Voyager、Gen3C、VMem 等四個基準的定性比較，覆蓋同一軌跡下的條件輸入結果。官方程式碼則標示為「Coming Soon」，目前較適合研究員先閱讀論文與項目頁示範影片。

這個項目特別適合研究影片世界模型、3D 場景理解或擴散模型加速的團隊與學生，亦可作為 generative world model 課程的延伸閱讀。 對一般讀者而言，它展示了把「記憶」留在潛在空間而不還原成像素，是兼顧一致性與效率的可行方向。

重點摘要：

核心方法：以 3D latent tokens 儲存靜態場景，避免 RGB render-and-reencode。
記憶生命週期：Initialize、Read、Denoise、Update 四個步驟跨 chunk 共享快取。
效率數據：World-R1 上生成速度約 10.57 倍、3D 快取記憶體降約 55 倍、WorldScore 70.36。
比較基準：Spatia、Voyager、Gen3C、VMem。
目前狀態：論文已公開，程式碼尚未釋出。

GitHub： https://github.com/microsoft/LatentSpatialMemory

項目： https://microsoft.github.io/LatentSpatialMemory/