VibeVoice:前沿開源文字轉語音模型

VibeVoice 是一個開源,能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型,它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架,特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一,在於其採用了連續語音分詞器(聲學和語義),並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度,同時顯著提升處理長序列的計算效率。此外,VibeVoice 採用了「下一詞元擴散」框架,巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程,再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音,並支援多達 4 位不同的說話者,遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)
Categories: 開源, 微軟, 語音

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型,能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻,使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1,您可以在那裡試用富有表現力的演講和故事演示。想像一下,只需一個簡單的提示,您就可以創作一個「選擇你自己的冒險」故事,或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧!

微軟從巨型模型到輕量級智慧,創新雙管齊下。正積極推動其基礎模型(foundation models)的創新,並為此推出了兩款重要的內部開發模型:超大型的 MAI-1,以及輕巧高效的 Phi-3 系列模型,展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音