Boson AI 開源 4B 參數語音模型 Higgs Audio v3 速覽

Og image

bosonai/higgs-audio-v3-tts-4b 是由 Boson AI 在 Hugging Face 上開源的一款文字轉語音(Text-to-Speech, TTS)模型,整個模型約有 40 億(4B)個參數。這個項目主打多語言語音合成,並可根據少量參考音訊複製說話者的聲線,亦支援多輪對話式的語音生成,常用於 AI 配音、對話機械人、有聲內容製作等場景。

模型以 transformers 框架發佈,頁面具備 chat_template_jinja 範本,方便整合到現有的對話系統中。開發者可以直接透過 Hugging Face Transformers 載入 tokenizer 和模型,並依官方範例程式碼生成 wav 音檔,整體流程對熟悉 Python 的使用者而言並不複雜。

Higgs Audio v3 TTS: Beyond Reading, Toward Real Speech

這個項目主要處理傳統 TTS 難以兼顧「自然對話感」與「聲線多樣性」的痛點。模型能根據文字內容自動調整語氣、停頓與情緒,讓合成結果更貼近真人發聲。

重點摘要:

  • 規模與定位:約 40 億參數的開源 TTS 模型,定位為輕量而功能完整的語音方案。
  • 核心功能:支援文字轉語音、聲線複製(voice cloning)以及多輪對話語音生成。
  • 多語言支援:可處理多種語言的合成任務,適合跨語言應用。
  • 使用門檻:需要 Python 環境與 Hugging Face Transformers 基礎知識,建議配備 GPU 以獲得順暢體驗。
  • 整合彈性:內建 chat template,方便接駁到聊天機械人或多輪對話流程。

這個項目較適合從事 AI 語音應用、虛擬助手、有聲書或遊戲配音的開發者與研究人員。如追求極低部署成本,亦可考慮使用雲端 GPU 或 Hugging Face Inference Endpoints 來運行。

項目: https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

Categories: 開源, 數字人, 語音