Lip Forcing:把唇形同步推進即時串流

Hero image preview

Lip Forcing 是一個針對 video-to-video(V2V)lip synchronization 的研究項目,重點是把 diffusion 模型原本昂貴的推理流程,大幅壓縮到適合即時串流使用。它希望在保留人物身份、頭部姿勢與背景一致性的同時,令口型更準確貼合目標音訊。

現有 diffusion-based 唇形同步方法畫質和聲畫對齊表現不錯,但通常要看完整段影片、再經過很多次 denoising steps,速度和延遲都難以配合直播翻譯、virtual avatars、interactive agents 這類場景。Lip Forcing 改用 autoregressive diffusion,把影片分段逐塊生成,並把 50-step teacher 壓縮成 two-step streaming student,減少計算負擔。

對 lip-sync 任務,本身不是單純套用通用加速技巧。作者指出 CFG 會在 reference fidelity 與 synchronization 之間出現取捨,並據此設計出 Sync-Window DMD、two-step inference schedule,以及以 SyncNet 為基礎的 reward,目標是在少步數下仍維持可用的唇形同步效果。

兩個 student 模型都由 14B teacher 蒸餾而來。1.3B student 可達 31 FPS,速度比同規模 bidirectional model 快 17.6 倍;14B student 則比 teacher 快 39.8 倍,並維持相近的 reference fidelity。兩個版本的 time-to-first-frame 都低於 1 毫秒,顯示它特別適合低延遲串流情境。

  • 支援即時串流,最高可達 31 FPS
  • 每個 chunk 只需 two denoising steps,毋須 inference-time CFG
  • 採用 autoregressive diffusion,降低全序列注意力帶來的成本
  • 針對 lip synchronization 設計蒸餾方法,不是一般加速改裝
  • 適合 live translation、virtual avatars、interactive agents 等場景

如果你關注的是即時嘴型同步、低延遲影片生成,或想了解 few-step autoregressive diffusion 如何落地到影音任務,這個項目相當有參考價值。文中可確認引用與比較的技術脈絡包括 Computer-use agents、CUAs、LoRA、OSWorld 以外的影音生成方向;就本頁內容可明確列出的模型,主要是 14B audio-conditioned bidirectional video diffusion teacher、1.3B student、14B student,以及 SyncNet。

Paper: https://arxiv.org/pdf/2606.11180

Categories: 開源, 模型, 語音