dots.tts：支持廣東話的連續式語音合成

dots.tts 是一個文字轉語音（Text-to-Speech, TTS）模型，主要用來將輸入文字轉成自然語音，並兼顧聲線模仿同情緒表達。它採用全連續、端到端的自回歸（Autoregressive, AR）設計，整條流程都唔用離散 token，這點同不少傳統 TTS 做法有明顯分別。

項目提供本地模型目錄或 Hugging Face repo id 載入方式，亦有 CLI、Python API 同 Gradio 網頁示範可試。用 --prompt-audio 配合 --prompt-text 可以做延續式 cloning；只給 --prompt-audio 時則走 x-vector-only cloning；而 --language 可幫多語言或 code-switching 文字鎖定語言標籤。

这开源TTS 太狠了：3 秒复刻音色+情绪迁移，还能实时朗读！

Watch this video on YouTube

它的取向偏向高保真同穩定生成，而唔係只追求速度。官方數據顯示，dots.tts 在 Seed-TTS-Eval 取得較佳平均表現，zh / en / zh-hard 的 WER 分別係 0.94% / 1.30% / 6.60%，MiniMax multilingual benchmark 亦有 83.9 的平均 speaker similarity，反映它在聲音相似度同多語言能力上都有競爭力。

較適合做語音產品原型、配音流程、虛擬人聲、以及需要少量參考音去複製語氣嘅團隊。要留意參考音大約 10 秒較合適，而且 --prompt-text 必須同參考錄音內容一致，否則穩定性會下降。

2B 參數、全連續 AR TTS，核心目標係文字轉自然語音
支援 voice cloning、多語言同情感表達
提供 CLI、Python API、Web Demo，方便測試同部署
評測上在 Seed-TTS-Eval 同 MiniMax multilingual 都有強勢成績
相關模型包括 dots.tts-base、dots.tts-soar、dots.tts-mf

GitHub： https://github.com/rednote-hilab/dots.tts

模型： https://huggingface.co/collections/rednote-hilab/dotstts