語音 – Infer News

Paper2Video 論文自動生成視頻系統

Paper2Video 能從輸入的論文（LaTeX源碼）、一張圖片和一段音頻，生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊，實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率，推薦GPU為NVIDIA A6000（48G顯存）及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key，支持本地 Qwen 模型。

Categories: Gemini, Python, 數字人, 語音, 開源

VibeVoice：前沿開源文字轉語音模型

VibeVoice 是一個開源，能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型，它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架，特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一，在於其採用了連續語音分詞器（聲學和語義），並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度，同時顯著提升處理長序列的計算效率。此外，VibeVoice 採用了「下一詞元擴散」框架，巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程，再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音，並支援多達 4 位不同的說話者，遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)

Categories: 微軟, 語音, 開源

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型，能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻，使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1，您可以在那裡試用富有表現力的演講和故事演示。想像一下，只需一個簡單的提示，您就可以創作一個「選擇你自己的冒險」故事，或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧！

微軟從巨型模型到輕量級智慧，創新雙管齊下。正積極推動其基礎模型（foundation models）的創新，並為此推出了兩款重要的內部開發模型：超大型的 MAI-1，以及輕巧高效的 Phi-3 系列模型，展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音

本地語音聊天機器人

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS

Watch this video on YouTube

🎯語音克隆：只需一段簡短的音訊樣本即可克隆任何聲音
🎭情緒控制：調整回應的情緒表達
🚀效能更佳：0.5B 參數模型，推理速度更快
💧音頻浮水印：內建神經浮水印，確保真實性

Github Repository

Categories: 語音, 開源

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 香港中文大學, Mac, Win, 模型, 聲效, 語音, 開源

pyvideotrans 指南

【2025】别再“啃生肉”了！免费开源！这个AI视频翻译神器，一键搞定字幕＆配音，让外语视频秒变“中文版”！| pyvideotrans教程

Watch this video on YouTube

pyvideotrans: 将视频从一种语言翻译为另一种语言，同时支持语音识别转录、语音合成、字幕翻译。

Categories: 教學, 語音, 開源

HeyGem – Heygen 的開源平替產品

HeyGem AI，一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音，創造出獨特的數字人，你可以選擇透過文字，或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面，核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品：HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析，效果，资源需求，牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI（147）

Watch this video on YouTube

Categories: 教學, 數字人, 語音

實作 Gemini 實時語音 RAG 助手。

利用 Gemini 2.0 的多模態即時 API 來建立一個實時的語音 RAG 助手。RAG，也就是檢索增強生成，肯定是語言模型中最有價值的增強之一。透過上下文感知的回答，它被證明是處理有關最新資訊的問題或任務的有效方法。

由於 Gemini 的多模態即時 API 裡面沒有內建的文件檢索介面，影片將展示如何建立一個自訂的流程，來接收用戶的語音，從提供的文件中檢索內容，然後讓Gemini 以語音回覆。

Talk to Your Documents: Create a Real-Time RAG Assistant with Gemini 2.0 Multimodal Live API

Watch this video on YouTube

Categories: Gemini, RAG, 語音

Gemini-Teacher 英語教師

Google Gemini AI 打造英語發音矯正

提供即時語音辨識、AI 驅動的發音評估、語法修正和情境對話練習等功能，旨在幫助使用者提升英語口語能力。使用者需要取得Gemini 的 API Key 才能運行。

MAC Image

Categories: API, 語音, 開源

FLOAT – 最強 LipSync 工具

FLOAT 是個音訊驅動人像影片模型。模型提供能夠生成更自然、更具表現力的面部動畫，反映出說話者的情感狀態。

FLOAT

關鍵詞彙表

擴散模型 (Diffusion models): 一種生成模型，通過逐漸向數據添加噪聲，然後學習逆轉該過程來生成新數據。
流匹配 (Flow matching): 一種生成模型訓練技術，其目標是學習將簡單分佈轉換為目標數據分佈的變換。
運動潛在空間 (Motion latent space): 一個表示人像運動的低維空間，從輸入的人像圖像中學習得到。
音頻驅動說話人像生成 (Audio-driven talking portrait generation): 使用音頻信號作為輸入，生成與音頻同步的說話人像視頻的任務。
情感增強 (Emotion enhancement): 根據輸入的語音情感標籤，增強生成的人像動畫的情感表現力。
幀級 AdaLN (Frame-wise AdaLN): 一種自適應層歸一化技術，在每個時間步長根據條件信息調整特徵統計量，用於增強生成運動的多樣性。
函數評估次數 (NFEs): 評估生成模型所需的時間步長或迭代次數，用於衡量模型的效率。
3DMM 頭部姿態參數 (3DMM head pose parameters): 一種基於 3D Morphable Model 的人臉姿態表示，可以控制生成人像的頭部方向。

Categories: 模型, 語音

Page 1 of 2

1 2 Next »