ViGeo：一個模型處理影片幾何重建

ViGeo 是一個用來估算場景幾何的項目，輸入可以是影片片段，也可以是單張影像。它會輸出 depth、3D points、normals、confidence，處理連續影格時亦可估算 camera poses，重點是盡量保持時間上的一致性，減少前後幀結果跳動。

使用這個項目時，先按手頭資料選擇模式：完整影片可用 offline，串流畫面可用 online，長影片則可分段用 chunk 處理。這種安排對做影片重建、機械人感知、AR、導航或後期視覺分析的人較實用，因為不需要為不同輸入形式換另一套模型。

它想解決的核心問題，是影片幾何估計常見的兩難：不是短片效果好但難以串流，就是能即時推理但長時間一致性不足。ViGeo 以同一個 feed-forward foundation model 統一 full-sequence reconstruction、streaming inference 與 long-video inference，論文指出關鍵在 dynamic chunking attention，讓模型可因應測試情境切換時間關注方式，而不用重新訓練。

另一個重要部分是 VideoLDCM，完整名稱是 VideoLDCM，負責 depth completion。它在這項工作中用作 data-refinement model，把稀疏或帶雜訊的深度觀測整理成較乾淨的 dense depth supervision，對訓練幾何模型有幫助，也解釋了為何這個項目不只看單幀品質，還強調跨影格穩定性。

同時支援 offline、online、chunk 三種推理流程
可由影片或單張影像估算 depth、3D points、normals 等結果
以 dynamic chunking attention 兼顧串流與長影片處理
結合 VideoLDCM 改善深度監督資料品質
論文聲稱在多項 video geometry 任務達到 state-of-the-art

Model	Download	Description
ViGeo	LINK	用於深度、點、法線、姿態和置信度的主要視覺幾何模型
VideoLDCM	LINK	用於稀疏深度濾波、泊松補全和深度細化的資料細化模型

性能方面，論文描述它在 online、offline、long-video depth estimation、surface normal estimation、video point map estimation 都有很強表現，並以 public datasets 訓練。不過目前公開 checkpoint 亦已註明存在已知 loss implementation 問題，可能在 camera poses 視覺化與遠距區域出現輕微瑕疵，因此較適合先用來理解能力範圍，再決定是否放入要求很高的生產流程。

GitHub： https://github.com/aigc3d/ViGeo

項目： https://pkqbajng.github.io/ViGeo/