SimFoundry：單段影片變機械人模擬場景

Digital twin and cousins of the wooden drawer organizer

這是一個由 NVIDIA Research 推出的 robot learning 項目。它的主要用途是把單一真實場景的圖片或影片，自動轉成可供機械人策略訓練與評估的互動式 simulation environment，減少真實世界收集數據與反覆測試的成本。

SimFoundry 的核心做法是建立 modular and automated 的 zero-shot real-to-sim pipeline，從單一影像或影片生成 sim-ready digital twins，並支援 object、scene 與 task editing。除了重建原場景，系統亦可自動產生多種 digital cousins，讓同一個任務在不同物件配置、場景條件或操作要求下擴展訓練資料，提升策略泛化能力。

和常見要大量人工建模、手動調參或依賴多視角掃描的做法相比，這個項目強調以較低輸入門檻快速建立可用模擬場景。頁面亦提到 hybrid scene 表示方式，結合 3D Gaussian Splat 背景與 textured object meshes，重點不只在視覺重建，而是要讓場景可直接用於 policy learning and evaluation。

重點摘要：
– 以單一 image 或 video 建立 real-to-sim 場景
– 可生成 sim-ready digital twins，並編輯 object、scene、task
– digital cousins 有助擴充訓練變化，改善 sim-to-real 泛化
– 在 7 個 manipulation tasks、5 個 policies 上，simulation evaluation 與真實表現高度相關
– object、scene、task cousins 分別帶來平均 17%、21%、50% 任務成功率提升

評測結果顯示，SimFoundry 在 7 項 manipulation tasks 與 5 個 policies 上，simulation evaluation 對真實世界表現具有很強預測力，mean Pearson correlation 為 0.928，mean maximum ranking violation 為 0.018；用於評估真實策略時，頁面亦列出 mean Pearson correlation 0.911。文中提及的策略包括 DreamZero、Gr00t N1.7、π 0.5，顯示這個項目適合用於機械人操作研究、policy benchmarking，以及想以較低成本建立可重複測試流程的團隊。

項目主頁 · Paper