VibeVoice:前沿開源文字轉語音模型

VibeVoice 是一個開源,能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型,它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架,特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一,在於其採用了連續語音分詞器(聲學和語義),並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度,同時顯著提升處理長序列的計算效率。此外,VibeVoice 採用了「下一詞元擴散」框架,巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程,再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音,並支援多達 4 位不同的說話者,遠超許多先前模型通常僅限於 1-2 位說話者的限制。

這項技術的突破性,體現在其處理長時間和多說話者內容的能力上。傳統系統雖然可以透過拼接單獨合成的語句來生成延長音訊,但在處理自然的輪流對話和內容感知生成方面往往力有未逮。VibeVoice 則能克服這些挑戰,生成超過 5,000 秒的音訊,並在主觀評估中持續超越其他開源和閉源系統,展現其在偏好度、真實感和豐富度方面的卓越表現。它在 64K 的上下文窗口中,能夠為長達 90 分鐘的語音內容,合成最多 4 位說話者,捕捉真實的對話動態。

VibeVoice 的應用潛力廣闊,包括製作引人入勝的播客和有聲書、生成跨語言音訊以實現沉浸式語言學習體驗、為遊戲和動畫等娛樂媒體創造動態音訊,以及透過自然的合成語音增強輔助功能。這個模型還支援英、中文語音生成,並且可以進行跨語言合成,甚至基礎的唱歌合成。 值得一提的是,VibeVoice 1.5B 版本僅需約 7GB VRAM 即可進行多說話者推理,讓尖端的多語音合成技術更容易在消費級硬體上運行,便於研究和創意專案使用。

然而,Microsoft 也強調 VibeVoice 主要用於研究和開發目的。在未經進一步測試和開發的情況下,不建議將其用於商業或實際應用。目前模型專注於語音合成,不處理背景噪音、音樂或其他音效,也不明確建模或生成重疊的語音片段。此外,VibeVoice 繼承了其基礎模型(Qwen2.5 1.5b)可能存在的任何偏見、錯誤或遺漏。使用者必須確保文字稿的可靠性,檢查內容的準確性,並避免以誤導方式使用生成的內容,以負責任且符合法律法規的方式使用這項技術。

總之,Microsoft 的 VibeVoice 代表了文字轉語音技術領域的一個重大進步,為生成富有表現力、多說話者的長篇對話音訊設定了新基準。透過開源的方式,VibeVoice 邀請全球社群共同參與,一同構建合成音訊的未來,讓機器人般的旁白時代逐步邁向終點,迎來一個充滿自然、對話且出乎意料人性化的聲音新時代。

Categories: 開源, 微軟, 語音