CHORD 是一套通用的生成式流程,能直接從普通的 2D 影片畫面中抽取隱含的拉格朗日運動資訊,進而合成各式各樣的 4D 動態場景。這套方法不依賴任何類別專屬的先驗或結構標註,也不需要龐大的標註資料集,只要把影片送入分配式蒸餾流程,就能把 2D 影像裡的運動資訊轉換成 3D 物體的時間軸運動軌跡。如此得到的資訊既適用於單一物體,也能支援多物體之間的互動,讓模型在不限定物件類別的情況下,自動產生多層次、複雜的動態場景。
實驗顯示 CHORD 能快速生成從玩具積木、運動部件到機器人操作等不同情境的 4D 效果,且在視覺品質和多樣性上相較於既有的規則導向或大規模資料訓練方法更具優勢。同時,這套框架也能直接提供給人類或機器人操作介面,協助後續的實體模擬與控制。整體而言,CHORD 以低成本、無需大量標註的方式,讓生成式 AI 能更廣泛地應用於真實世界的 4D 動態創作上。