Ovi 生成視頻、對嘴音頻

Ovi 使用了專屬預訓練 5B 音頻分支,架構設計類似 WAN 2.2 5B,同時提供了 1B 融合分支,支持純文本或文本+圖片輸入,自動生成視頻、對嘴音頻,以及匹配場景的背景音效和音樂。

Finally, open-source AI video with SOUND! Ovi tutorial
OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than Veo 3?
Categories: ComfyUI, 數字人, 開源