ShapeR 是以 rectified‑flow 為基礎的生成模型,能直接從日常拍攝的影像序列(即「不規則」捕捉)重建高保真的三維物件。整體流程大致可以分成幾個步驟:
先用現成的視覺‑慣性 SLAM 演算法把鏡頭移動和稀疏點雲拿出來,接著再交給 3D 物件偵測器把每個目標物分割出來。每個偵測到的物件會得到幾張具備相機位姿的多視角圖片、一組稀疏的 SLAM 點,還有一段由視覺語言模型自動產生的文字說明。這些資訊(點雲、多視圖、文字)會被封裝成一個多模态的條件向量,送給訓練好的 rectified‑flow Transformer 去去噪。
Transfomer 輸出的 latent VecSet 接著經過一個 3D VAE 解碼,最後生成完整的三維網格。整個模型只需要在合成資料上先做大量的單物件預訓練,接著再在更具挑戰性的合成場景與真實場景資料上進行兩階段的訓練,過程中會不斷加入各種自然的背景、遮擋、噪聲以及 augmentations,讓模型學會在「雜亂」的環境下仍保持穩定。
研究團隊也釋出了一個專屬的評估資料集:裡面有 178 個真實世界的物件分布在七個場景中,配有完整的地面真值網格、配對好的多視圖影像、SLAM 點雲與文字描述。這筆資料專門用來測試在野外捕捉時的遮擋、雜亂、解析度變化等情況,讓模型在更貼近實務的條件下接受測試。
在測試結果上,ShapeR 在 Chamfer Distance 指標上比目前最好的方法提升了 2.7 倍,顯示出在「不規則」情境下的穩定性確實比先前的單視圖或全局場景重建方式更佳。相較於同樣流行的 SAM3D 方法,ShapeR 的特色在於它利用多視圖的幾何資訊(SLAM 點、相機位姿)來保證形狀的尺度與真實感,而 SAM3D 則依賴單張圖像與互動,對於規模和視角的一致性較弱。兩者其實可以互補——把 ShapeR 的幾何結果再送給 SAM3D 生成更豐富的材質或細節。
總結來說,ShapeR 透過把 SLAM 點雲、3D 偵測、多視圖影像和自動文字說明這幾種資訊全部結合起來,做出一個能在日常拍攝場景下產生高品質、具備度量真實性的單物件三維形狀的生成模型,並提供了完整的測試素材與模型資源讓研究者直接使用。
| 面向 | ShapeR | SAM3D |
|---|---|---|
| 輸入 | 多視角序列 + SLAM 點 + caption 等多模態 | 單張影像 +(物件時多半要 mask / 互動) |
| 任務重點 | 場景級、物件為中心的度量重建與佈局 | 單視圖高品質幾何 + 貼圖的物體/人體重建 |
| 幾何精度 | 強調 metric accuracy、相對尺度與佈局一致性 | 可缺乏精確比例與 layout,特別是複雜場景 |
| 紋理 / 外觀 | 較偏幾何與場景結構(官網重點在 shape) | 強調 photoreal 紋理與真實外觀 priors |
| 互動需求 | 不需要使用者互動,pipeline 自動處理 | 需要物件 mask / prompt,屬於 promptable / interactive workflow |
| 訓練數據 | 合成多模態場景(SLAM + 多視圖) | 大規模真實 image→3D(Objects/Body 各自的 dataset) |
| 適合場景 | AR 眼鏡 / 機器人多視角感知、場景 mapping、學術評測 | 商業應用:電商 AR、human pose & shape、單圖 3D content creation |