本地語音聊天機器人

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS
  • 🎯語音克隆:只需一段簡短的音訊樣本即可克隆任何聲音
  • 🎭情緒控制:調整回應的情緒表達
  • 🚀效能更佳:0.5B 參數模型,推理速度更快
  • 💧音頻浮水印:內建神經浮水印,確保真實性

Github Repository

Categories: 開源, 語音

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 香港中文大學, 開源, 聲效, Mac, Win, 模型, 語音

pyvideotrans 指南

【2025】别再“啃生肉”了!免费开源!这个AI视频翻译神器,一键搞定字幕&配音,让外语视频秒变“中文版”!| pyvideotrans教程

Categories: 開源, 教學, 語音

HeyGem – Heygen 的開源平替產品

HeyGem AI,一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音,創造出獨特的數字人,你可以選擇透過文字,或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面,核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品:HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析,效果,资源需求,牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI(147)

Categories: 數字人, 教學, 語音

實作 Gemini 實時語音 RAG 助手。

利用 Gemini 2.0 的多模態即時 API 來建立一個實時的語音 RAG 助手。RAG,也就是檢索增強生成,肯定是語言模型中最有價值的增強之一。透過上下文感知的回答,它被證明是處理有關最新資訊的問題或任務的有效方法。

由於 Gemini 的多模態即時 API 裡面沒有內建的文件檢索介面,影片將展示如何建立一個自訂的流程,來接收用戶的語音,從提供的文件中檢索內容,然後讓Gemini 以語音回覆。

Talk to Your Documents: Create a Real-Time RAG Assistant with Gemini 2.0 Multimodal Live API
Categories: Gemini, 語音, RAG

Gemini-Teacher 英語教師

MAC ImageWIN Image

Categories: 開源, API, 語音

FLOAT – 最強 LipSync 工具

FLOAT 是個音訊驅動人像影片模型。模型提供能夠生成更自然、更具表現力的面部動畫,反映出說話者的情感狀態。

關鍵詞彙表

  • 擴散模型 (Diffusion models): 一種生成模型,通過逐漸向數據添加噪聲,然後學習逆轉該過程來生成新數據。
  • 流匹配 (Flow matching): 一種生成模型訓練技術,其目標是學習將簡單分佈轉換為目標數據分佈的變換。
  • 運動潛在空間 (Motion latent space): 一個表示人像運動的低維空間,從輸入的人像圖像中學習得到。
  • 音頻驅動說話人像生成 (Audio-driven talking portrait generation): 使用音頻信號作為輸入,生成與音頻同步的說話人像視頻的任務。
  • 情感增強 (Emotion enhancement): 根據輸入的語音情感標籤,增強生成的人像動畫的情感表現力。
  • 幀級 AdaLN (Frame-wise AdaLN): 一種自適應層歸一化技術,在每個時間步長根據條件信息調整特徵統計量,用於增強生成運動的多樣性。
  • 函數評估次數 (NFEs): 評估生成模型所需的時間步長或迭代次數,用於衡量模型的效率。
  • 3DMM 頭部姿態參數 (3DMM head pose parameters): 一種基於 3D Morphable Model 的人臉姿態表示,可以控制生成人像的頭部方向。
Categories: 模型, 語音


SenseVoice 具有音頻理解能力的音頻基礎模型

Mac M1 上實測,廣東話夾英文一齊都好準,不過出嘅係簡體中文!

Categories: 模型, 語音