
FLAT(Feedforward Latent Triangle Splatting)是一個由 Google Research、牛津大學 Visual Geometry Group 與慕尼黑工業大學共同開發的 3D 場景生成項目,主打從影片擴散模型的潛在表示中,單次前向解碼出幾何準確的三角形面片場景。
開發團隊方面,FLAT 由 Orest Kupyn、Goutam Bhat、Philipp Henzler、Fabian Manhardt、Christian Rupprecht 與 Federico Tombari 等研究員共同發表,核心作者來自 Google Research,並與牛津大學 Visual Geometry Group 及慕尼黑工業大學合作完成。
與常見做法相比,FLAT 跳過了「先生成再優化」的兩階段流程,直接從壓縮的影片擴散潛在特徵預測三角形面片,而非 3D 高斯體素。這項差異讓輸出結果在幾何精度上更貼近真實表面,同時保留視覺品質,並能直接用簡單的三角形渲染器顯示。
重點摘要:
- 直接三角形解碼:單次前向從影片擴散潛在特徵預測三角形面片,省去後續優化步驟。
- 幾何專屬訓練設計:採用以視線為中心的三角形參數化與 product window 渲染函數,穩定三角形回歸的梯度流。
- 輕量精修流程:經過簡單的測試階段精修,將三角形集合轉為完全不透明表示,適用於標準渲染與物理引擎。
- 跨裝置即時瀏覽:輸出場景可用簡單三角形渲染器即時探索,在觸控裝置上支援拖曳與 WASD 移動操作。
- 物理互動支援:精修後的資產可整合到遊戲引擎風格的物理交互流程中。
使用方法方面,FLAT 已在 HuggingFace 上發布模型權重,並提供網頁互動示範。讀者可透過 HuggingFace 頁面取得模型,或在官方項目網站(flat-splat.github.io)直接體驗瀏覽器內的互動 Demo,拖曳畫面或使用 WASD 鍵即可在場景中移動視角。
FLAT 適合需要快速生成可匯出 3D 資產的研究人員、開發者及遊戲或圖形相關工作者,尤其在需要幾何準確性與物理交互的場景中表現突出。