NAVA 點樣做好聲畫同步生成

NAVA 是一個主打音訊與影片同步生成的項目，目標不是先整好畫面再補聲，而是由一開始就把兩者放在同一個生成流程內處理。對非技術讀者來說，可以把它理解成一個較重視「畫面發生什麼，聲音就跟住發生什麼」的模型，因此打鬥、說話、環境聲這類時間配合會更自然。

這個項目的核心做法，是先在獨立空間建立 audio-video alignment，再用文字或其他 context 去引導生成，並採用 Align-then-Fuse MMDiT 架構。另一個亮點是 Timbre-in-Context Conditioning，能把參考 WAV 的音色對應到指定語音片段，適合多角色對白、指定聲線或旁白控制。

NAVA 有 6.3B 參數，可在 8 張 GPUs 配合 Ulysses sequence parallelism 下約 1 分鐘生成 720p 影片，這代表它主要面向高階 GPU 環境；VRAM 的作用是存放模型權重、推理中的中間特徵、音訊與影片 token，以及較高解像度生成所需的緩衝空間，VRAM 越充足，越有機會支援更高畫質、較長內容或較穩定的批次推理。

支援 native stereo audio，畫面、場景聲與語音一併生成
可用文字控制鏡頭構圖、運鏡與節奏
支援 multi-timbre voice control，適合多角色配音場景
同一 checkpoint 可輸出橫向、直向與正方形比例
英文 TTS 表現較強，其他語言支援看來仍較有限

它在 Verse-Bench、Seed-TTS 及用戶研究中，於影片質素、聲畫同步和參考音色可控性有明顯優勢，音訊質素亦具競爭力。若你關注開放式 audio-video generation、TTS、虛擬角色影片、短片內容製作，或者想研究 6.3B 級別模型如何平衡同步效果與運算需求，NAVA 是一個很值得細看的項目。

GitHub： https://github.com/ernie-research/NAVA