OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型,它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略,可更好地捕捉潛在空間中的音訊特徵,從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力,我們採用了基於 LoRA 的訓練方法。大量實驗表明,OmniAvatar 在臉部和半身視訊生成方面均超越現有模型,能夠提供基於文字的精準控制,用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳,速度感人!我把 OmniAvatar 部署下来了,生成20秒视频竟要4小时?