微軟 – Infer News

VibeVoice：前沿開源文字轉語音模型

VibeVoice 是一個開源，能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型，它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架，特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一，在於其採用了連續語音分詞器（聲學和語義），並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度，同時顯著提升處理長序列的計算效率。此外，VibeVoice 採用了「下一詞元擴散」框架，巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程，再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音，並支援多達 4 位不同的說話者，遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)

Categories: 微軟, 語音, 開源

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型，能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻，使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1，您可以在那裡試用富有表現力的演講和故事演示。想像一下，只需一個簡單的提示，您就可以創作一個「選擇你自己的冒險」故事，或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧！

微軟從巨型模型到輕量級智慧，創新雙管齊下。正積極推動其基礎模型（foundation models）的創新，並為此推出了兩款重要的內部開發模型：超大型的 MAI-1，以及輕巧高效的 Phi-3 系列模型，展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音

StableAvatar：無限長音訊驅動的頭像影片生成

用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果，是首個端到端視訊擴散變換器，無需後製即可合成無限長的高品質視訊。

Categories: 騰訊, 微軟, 數字人, 開源