VLS : 透過視覺語言模型引導預先訓練機器人策略

VLS（Vision-Language Steering）的具體作用是透過視覺語言模型（VLM）即時導向預訓練機器人策略，解決測試時的分布偏移，讓機器人在新環境中保持高成功率，而無需重新訓練。

VLS 針對預訓練擴散策略在空間變化（如新位置）或任務變化（如新物件）下的失效，提供無梯度、無訓練的適應機制，利用 VLM 生成可微分獎勵函數，注入去噪過程。
它將任務分解為順序階段（如「抓取」→「放置」），使用 3D 關鍵點獎勵，避免單一失敗導致整體崩潰。

場景	無 VLS 成功率	有 VLS 成功率	提升幅度
任務擾動	23%	38%	+15%
位置擾動	24%	35%	+11%
真實廚房任務	~50%	85%	+35%