Gen3R 影片資訊直接生成 3D 

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架,目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣,這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是:先把 VGGT 重建模型的 token 包成幾個幾何潛在變數,再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在;兩種潛在同時生成,互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊(相機姿態、深度圖、全局點雲)。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果,而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起,而不是分開處理。  

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
Categories: 字節跳動, 3D, 影像模型, 影像處理, 開源