Surflo 用全域狀態重建一致 3D 表面

Surflo: a single coherent surface decoded from one global state

Surflo 是一個由多張未對位影像重建 3D 表面的項目。它先把數量可變的輸入視角整合成單一 global latent state，再用 flow-matching ODE 逐點生成表面，目標是避免傳統每個視角各自輸出、最後難以拼合的問題。

這個項目的核心做法，是把 N 張影像壓縮成固定大小的全域狀態 z，當中只有 K=128 tokens，之後再按需要解碼任意數量的表面點。因為每個點可獨立生成，同一次編碼之後便能輸出不同解析度，最高提到可處理 M up to 10^6 oriented points。

為了令獨立生成的點仍然保持同一個連貫表面，Surflo 加入 communication guidance 機制，利用 shared rendering loss 在 ODE 積分過程中協調鄰近點。系統會把點轉成 3D Gaussians，再用 Gaussian Splatting 渲染，藉此減少局部表面互相矛盾的情況。

Surflo: Consistent 3D Surface Flow from a Global State

Watch this video on YouTube

重點項目：
– 支援 variable number of unposed images，不要求固定視角數量
– 以單一 global state 取代 per-view tokens 堆疊，控制表示大小
– 可按需要解碼任意表面解析度，不必重新編碼
– 在 8 個 benchmarks、2 到 32 views 條件下報稱達到 state of the art performance
– 另提供真實場景資料集，約 10.5K DL3DV scenes，包含 full scene meshes

這類項目較適合做多視角 3D 重建、場景數碼化，或者需要由少量到多量視角靈活輸入的研究工作。文中亦點名對比現代 feed-forward 3D 模型如 VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3；若你關心的是如何由多張相片穩定得到同一個完整表面，Surflo 的全域狀態設計值得留意。

模型列表：VGGT(https://huggingface.co/facebook/VGGT-1B)、DUSt3R、DepthAnything-3。

項目： https://anttwo.github.io/surflo/