Robotic

場景	無 VLS 成功率	有 VLS 成功率	提升幅度
任務擾動	23%	38%	+15%
位置擾動	24%	35%	+11%
真實廚房任務	~50%	85%	+35%

RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集，約 400 萬 clips，覆蓋 1300+ skills / tasks，解析度達 720p，同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型，在一般影片生成指標上不錯，但面對需要「因果一致、物理連貫」的機器人操作影片時，常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。

RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。雖然RBench為識別這些缺陷提供了必要的視角，但要實現物理上的真實性，還需要超越評估層面，解決高品質訓練資料嚴重短缺的問題。基於這些，他們引入了一個改進的四階段數據管道，由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集，涵蓋數千個任務，並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎，加速了具身人工智慧向通用智慧的演進。

Categories: 影像模型, 視頻模型, 開源, Robotic

FrankenMotion 人體動作生成框架

FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架，專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集，這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述，填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註，模型能夠在訓練時同時學習空間（哪個部位在動）與時間（每個部位的具體時間模式）兩層資訊。

實驗結果顯示，相較於先前的 UniMotion、DART、STMC 等模型，FrankenMotion 在語義正確性與運動真實感上都有顯著提升，甚至能創造出訓練時未曾見過的組合動作，例如在坐下的同時抬起左手。

Categories: 庫, 模型, 編程, 開源, Robotic

RoboVIP 訓練機器人的模擬數據生成

RoboVIP 解決機器人領域中，真實世界訓練數據不足且難以大量取得的痛點。RoboVIP 是一個機器人數據生成工具，它讓研究者能用更聰明、更可控的方式製造模擬數據，進而訓練出更強大、更不容易出錯的機器人。

RoboVIP 引入了「視覺身份提示 (Visual Identity Prompting)」，你可以直接給 AI 一張「參考圖」（例如一張特定碗的照片），AI 就能精準地在影片中生成或替換成那個碗，讓生成的畫面更真實、更符合需求。

研究證明，用 RoboVIP 處理過的數據去訓練機器人（像是 Pi0 或 Octo 這類模型），不只在模擬環境中表現更好，在真實世界的機器人操作上，成功率也顯著提升，尤其是在處理混亂、複雜的場景時。

Categories: 開源, Robotic

CHORD 框架作為人類或機器人操作介面

CHORD 是一套通用的生成式流程，能直接從普通的 2D 影片畫面中抽取隱含的拉格朗日運動資訊，進而合成各式各樣的 4D 動態場景。這套方法不依賴任何類別專屬的先驗或結構標註，也不需要龐大的標註資料集，只要把影片送入分配式蒸餾流程，就能把 2D 影像裡的運動資訊轉換成 3D 物體的時間軸運動軌跡。如此得到的資訊既適用於單一物體，也能支援多物體之間的互動，讓模型在不限定物件類別的情況下，自動產生多層次、複雜的動態場景。

實驗顯示 CHORD 能快速生成從玩具積木、運動部件到機器人操作等不同情境的 4D 效果，且在視覺品質和多樣性上相較於既有的規則導向或大規模資料訓練方法更具優勢。同時，這套框架也能直接提供給人類或機器人操作介面，協助後續的實體模擬與控制。整體而言，CHORD 以低成本、無需大量標註的方式，讓生成式 AI 能更廣泛地應用於真實世界的 4D 動態創作上。

Categories: Robotic

VLS : 透過視覺語言模型引導預先訓練機器人策略

RBench and RoVid-X 機器人影片生成

FrankenMotion 人體動作生成框架

RoboVIP 訓練機器人的模擬數據生成

CHORD 框架作為人類或機器人操作介面