PhysisForcing 提升機械人世界模擬可靠性

這是一個用於機械人操作的世界模擬訓練框架，名為 PhysisForcing。它主要解決影片生成模型在模擬抓取、推動與物件互動時，常出現動作軌跡不連續、物件變形和互動不合物理規律的問題。

PhysisForcing 的做法不是單靠生成更像真的畫面，而是把訓練重點放在與物理相關的區域，並同時加入像素層與語意層兩種約束。像素層的 trajectory alignment loss 會用參考點軌跡監督 DiT features，語意層的 relational alignment loss 則利用凍結的影片理解編碼器，對齊區域之間的互動關係，令機械臂與物件之間的時空關聯更穩定。

和一般通用影片生成模型，或只針對機械人資料做微調的方法相比，這個框架更集中處理「物理合理性」而非單純畫面觀感。它可套用在標準 diffusion video backbones 之上，已展示於 Wan2.2-I2V-A14B 與 Cosmos3-Nano 這兩個基礎模型。

核心重點是分層物理對齊：同時改善運動一致性與互動關係一致性
適合用於 embodied world simulation、robotic manipulation 與下游動作規劃
在 R-Bench、PAI-Bench、EZS-Bench 都較強基線有提升
R-Bench 上，Wan2.2-I2V-A14B 提升 +22.3%，Cosmos3-Nano 提升 +9.2%
納入 WorldArena action-planner protocol 後，closed-loop success rate 由 16.0% 升至 24.0%

這項工作對需要用影片模型做機械人訓練、模擬驗證或策略學習的人較有參考價值，因為它不只改善生成片段的外觀，亦提升作為 world model 的可用性。現有資料顯示，物理對齊後的影片表徵亦能帶動下游 policy success，說明這類方法不只是視覺修飾，而是直接影響機械人操作結果。

項目主頁 · Paper