Gen3R 影片資訊直接生成 3D

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架，目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣，這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是：先把 VGGT 重建模型的 token 包成幾個幾何潛在變數，再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在；兩種潛在同時生成，互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊（相機姿態、深度圖、全局點雲）。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果，而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起，而不是分開處理。

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Watch this video on YouTube