聲效 – InferNews

SoulX-Singer 把零樣本歌聲合成

2026 年 7 月 26 日

做歌聲生成，最難往往唔係「唱到」，而係未見過的聲線仍然要自然、準音、像本人。SoulX-Singer正是朝住呢個矛盾而來的開源模型項目，重點放在 zero-shot singing voice synthesis：唔使為每位歌手再微調，都可以用參考聲線配合旋律或樂譜生成歌聲。

它的定位幾清楚：一邊照顧創作控制，一邊盡量保住音色身份。你可以用 melody-conditioned 的 F0 contour 控制音高走向，亦可以用 score-conditioned 的 MIDI notes 對齊節奏與音符；對於需要改詞、換語言、保留同一把聲去做 demo、作曲草稿或虛擬歌手內容的人，這種控制方式比只靠文字描述更實際。README 亦提供 Hugging Face 模型與線上示範，部署理解上屬於下載預訓練權重後做推理的典型流程。

同類做法常見取捨，是控制愈細，聲線就愈易散；複製音色愈強，跨語言和改詞後又可能變得生硬。SoulX-Singer把 timbre 與 content 盡量拆開處理，目標是讓 Cantonese、Mandarin、English 之間仍能維持歌手辨識度，這點比單純追求「像真」更有產品意味。項目另外還有從 SoulX-Singer 微調而來的 SoulX-Singer-SVC，處理 singing voice conversion，直接由原始歌聲音訊轉換成目標歌手風格，連歌詞或 MIDI 標註都可省去。

支援 F0 contour 與 MIDI 兩種控制，適合作曲草稿與精修流程
主打 zero-shot，未見過的歌手聲線都可生成，減少逐人微調成本
42,000+ 小時對齊人聲資料覆蓋 Mandarin、English、Cantonese
可做改詞編修與跨語言合成，同時維持音色一致性
另設 SoulX-Singer-SVC，補上 audio-to-audio 轉換場景

現有資料未完整列出量化指標細節，但項目已公開技術報告、arXiv 與示範頁，代表它不只停在概念展示。對音樂 AI 團隊、虛擬歌手內容製作、語音與歌聲研究者而言，SoulX-Singer吸引之處在於它把可控性、跨語言與免微調三件事放入同一條生成鏈，而限制則仍要留意倫理風險、聲線授權，以及最終作品是否需要後期混音補足細節。

GitHub · 模型

Categories: 開源, Audio, 模型, 聲效, 音樂

LatentOmni 想重寫影音推理方式

2026 年 5 月 23 日

LatentOmni 是一個面向影音多模態大語言模型的研究項目，重點不是叫模型先把線索全都翻成文字再慢慢推理，而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講，它想保留更多原始感官訊號，減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確：不少模型在看影片、聽聲音後，雖然能描述內容，但一遇到需要同時對齊時間、事件因果或細節關聯的題目，表現便會下跌。LatentOmni 提出的做法，是把文字推理流程與影音潛在狀態交錯進行，並用 OSPE 這類時間同步設計，幫助模型對準聲畫節奏。

從使用角度看，現時這個 GitHub 儲存庫仍以論文與概念介紹為主，訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法，或者作為研究與技術評估的參考，而不是立即部署到產品流程。

核心亮點是統一聲音與畫面的潛在推理，而非只輸出文字式思路
加入特徵層級監督與 OSPE，目標是保留時間對齊與跨模態關聯
配套資料集為 LatentOmni-Instruct-35K，用來訓練交錯式影音推理軌跡
論文指出它在多個影音推理基準上，表現優於明確文字 CoT 基線

整體來看，這個項目最吸引之處，是它把「模型怎樣思考」由文字中介，推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意；若你想比較相關模型，也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限，性能細節仍應以論文報告為準，評估時要保持審慎。

GitHub： https://github.com/yfanDai/LatentOmni

Paper： https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 清華大學, 北京大學

wvs-code：用影片與聲音驗證模型是否真懂內容

2026 年 5 月 21 日

專案《When Vision Speaks for Sound》t提供官方程式碼，核心目標不是做一般影音問答，而是檢查支援影片的多模態模型，究竟有沒有真正理解聲音，還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程，方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型（video-capable MLLMs）進步很快，但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的：模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊，而不是真正去檢查或分析音頻串流本身。

這個問題普遍存在於：

最先進的開源全能模型（omni models）

主要閉源模型供應商（如 Google 和 OpenAI）的頂級模型

換句話說，這些模型看起來能「聽懂」視頻中的聲音，但實際上它們只是「看」畫面來猜聲音是什麼，並沒有真正處理音頻數據，因此容易產生錯誤或幻覺（hallucinate）。

先準備好影片和音訊資料，再把資料登記到 LLaMA-Factory 的資料設定中，之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格，讓每條資料同時帶上 <video> 和 <audio>，方便模型學習在多模態情境下作答。

它比較特別的地方，在於採用介入式診斷框架 Thud，專門測試模型是否真的有做音訊驗證，而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用，也比單純準確率更能揭示模型行為。

可用來評測影片語音、音畫同步、時間延遲等問題
適合做多模態模型研究、除錯和基準測試
支援 SFT 與 DPO 訓練流程
可接入 LLaMA-Factory 一起使用
相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說，這個專案更像是一套「檢查工具」，而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測，或者想分析模型有沒有偷懶靠畫面猜答案的人，會特別有參考價值。

GitHub： https://github.com/rakanWen/wvs-code

Paper： https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

PrismAudio 視訊立體聲模型框架

2026 年 3 月 29 日

PrismAudio 是一個把視訊畫面轉成立體聲（stereo）音訊的 AI 模型框架，目標是在四個維度上同時優化：

語義合理性（Semantic）
音視同步性（Temporal synchrony）
音質美感（Aesthetic quality）
空間準確度（Spatial accuracy）

作者的關鍵點是：現有模型通常把這些目標混在一個損失函數裡，會造成「目標互相干擾」（objective entanglement），而 PrismAudio 用 分解式 Chain‑of‑Thought（CoT）推理＋多維度強化學習（RL） 來避免這個問題。

Categories: 開源, 聲效, 視覺模型

LTX-2 影音片生成模型

2026 年 1 月 9 日

LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型，整合影片與音訊的同步生成功能，具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數，另外提供 fp8、nvfp4 等壓縮量化版本，以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供，代碼與模型權重均在 Hugging Face 上公開，使用 ltx-2-community-license-agreement 授權，屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫，亦支援 ComfyUI 整合，適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2

Watch this video on YouTube

New #1 open-source AI video generator is here! Fast + 4K + audio + low vram

Watch this video on YouTube

https://infernews.com/comfyui-ltx-2-video/

Categories: 開源, 聲效, 視頻模型

Meta 推出開源 SAM 音訊

2025 年 12 月 29 日

Meta 的 SAM Audio 是首個統一的多模態模型，能從複雜音頻或視頻中精準分離特定聲音。

SAM Audio 支持文字提示（如「狗叫聲」或「人聲」）、視覺選擇（如點擊視頻中樂手）或時間範圍提示，來隔離目標聲音並生成殘餘音頻。它適用於音樂、語音和一般環境音，超越傳統單一工具。

模型基於 Flow-Matching Diffusion Transformer，在 DAC-VAE 潛在空間運作，提供小（500M 參數）、基（1B）和大（3B）版本。它能同時生成目標與殘餘音軌，支援真實世界場景如去除背景噪音。

Categories: 開源, Python, 聲效

NVSpeech 處理副語言聲音

2025 年 8 月 13 日

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 開源, 香港中文大學, Mac, Win, 模型, 聲效, 語音

MultiTalk 音訊驅動生成多人對話影片

2025 年 7 月 13 日

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 開源, 香港科技大學, 影像模型, 模型, 數字人, 聲效, 視頻模型

MMAudio 自動配音效模型

2024 年 12 月 15 日

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube

Categories: Audio, 模型, 聲效