StableAvatar：無限長音訊驅動的頭像影片生成

用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果，是首個端到端視訊擴散變換器，無需後製即可合成無限長的高品質視訊。

Categories: 騰訊, 微軟, 數字人, 開源