MoVerse 把單張相變成可遊走 3D 世界

MoVerse 是一個偏研究型的方法項目，目標是把一張 narrow-field-of-view image 轉成可導航的 3D 世界，並輸出可互動影片。它想解決的問題，是單張相片通常只得一個視角，但很多生成系統一移動鏡頭就容易穿崩、閃爍，或者空間結構不連貫。

這個項目的核心做法分成三段：先由單張圖生成 360° ERP panorama，再建立 Panoramic 3D Gaussian Scaffold，最後用 Autoregressive Video Refinement 按指定鏡頭路徑補成寫實影片。把「世界建構」同「觀察畫面生成」分開，的確比直接由單張圖硬推整段漫遊影片更有條理，也較容易維持時間連續性。

如果你想了解它表現如何，現階段最合適是先看 Project Page 的示範影片、360 度瀏覽內容與 3D Gaussian scaffold 視覺化。原因很簡單：GitHub 頁面已說明程式碼與 pretrained models 仍在 corporate compliance and security review，中短期內較像一個可追蹤的研究項目，而不是即刻下載就能本地測試的工具。

從公開資料看，MoVerse 有幾個重點值得留意：
– 只需單張 NFOV image 作輸入
– 支援 user-controlled camera trajectories，自由漫遊場景
– 官方稱可在單張 RTX 4090 上做到 8 FPS
– 場景涵蓋室內、室外，以及較風格化畫面如 anime landscapes
– 相關方向可留意 PanoWorld 等世界模型研究

它較適合關注 Computer Vision、3D generation、video world modeling 的研究者與內容技術團隊參考，也適合想評估單圖建場景能力的人。若你要的是即裝即用生產工具，這個項目暫時未到那一步；但如果你在看新一代由 2D 走向可漫遊 3D 的生成路線，MoVerse 的方法、效能數字與分段式架構，都有相當高的參考價值。

GitHub： https://github.com/Orange-3DV-Team/MoVerse

項目： https://orange-3dv-team.github.io/MoVerse/