聲效 – Infer News

LTX-2 影音片生成模型

LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型，整合影片與音訊的同步生成功能，具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數，另外提供 fp8、nvfp4 等壓縮量化版本，以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供，代碼與模型權重均在 Hugging Face 上公開，使用 ltx-2-community-license-agreement 授權，屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫，亦支援 ComfyUI 整合，適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2

Watch this video on YouTube

New #1 open-source AI video generator is here! Fast + 4K + audio + low vram

Watch this video on YouTube

ComfyUI LTX-2 video

Categories: 聲效, 視頻模型, 開源

Meta 推出開源 SAM 音訊

Meta 的 SAM Audio 是首個統一的多模態模型，能從複雜音頻或視頻中精準分離特定聲音。

SAM Audio 支持文字提示（如「狗叫聲」或「人聲」）、視覺選擇（如點擊視頻中樂手）或時間範圍提示，來隔離目標聲音並生成殘餘音頻。它適用於音樂、語音和一般環境音，超越傳統單一工具。

模型基於 Flow-Matching Diffusion Transformer，在 DAC-VAE 潛在空間運作，提供小（500M 參數）、基（1B）和大（3B）版本。它能同時生成目標與殘餘音軌，支援真實世界場景如去除背景噪音。

Categories: Python, 聲效, 開源

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 香港中文大學, Mac, Win, 模型, 聲效, 語音, 開源

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 香港科技大學, 影像模型, 數字人, 模型, 聲效, 視頻模型, 開源

MMAudio 自動配音效模型

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube

Categories: Audio, 模型, 聲效