Motive 是個專門針對「動作/時間動態」的標記框架,用梯度 + motion 加權 mask,微調 clip 對生成影片 motion 的影響量化,拿來做 dataset curation,顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知,這是第一個在影片生成模型中對運動而非視覺外觀進行歸因,並將其用於微調資料整理的框架。
這視覺模型能幫影片找出「哪個參考影片,真正決定它的動作怎麼動」,然後用這些資訊來挑更好的訓練素材,讓生成影片的動作更順、更合理。
Motive 是個專門針對「動作/時間動態」的標記框架,用梯度 + motion 加權 mask,微調 clip 對生成影片 motion 的影響量化,拿來做 dataset curation,顯著提升 T2V 模型的時間一致性與物理合理性。據我們所知,這是第一個在影片生成模型中對運動而非視覺外觀進行歸因,並將其用於微調資料整理的框架。
這視覺模型能幫影片找出「哪個參考影片,真正決定它的動作怎麼動」,然後用這些資訊來挑更好的訓練素材,讓生成影片的動作更順、更合理。