文字轉語音

CrisperWhisper 把語音逐字稿變成可控制輸出

2026 年 7 月 26 日

Repository image for nyrahealth/CrisperWhisper

做會議紀錄、訪談整理或臨床語音分析時，最大落差往往唔係辨識到幾多字，而係系統究竟寫出「講咗乜」定「本來想表達乜」。CrisperWhisper 屬於開源語音辨識模型項目，核心價值係將 verbatim 同 intended 兩種轉錄模式變成可明確控制的輸出，令逐字稿唔再受訓練資料風格左右。

呢個取向同一般 speech-to-text 系統好唔同。常見做法會不一致地刪走 filler、重複、停頓同 cut-off，CrisperWhisper 2.0 就刻意保留呢啲語音細節，或者按需要輸出整理後版本；同一段錄音可以得出兩份用途完全不同嘅文本。對做 TTS 資料整理、醫療或研究訪談分析、需要精準字幕時間碼嘅團隊，呢種分流比單純追求可讀性更有用。

項目另一個關鍵位係時間對齊同長音訊處理。它提供 word-level timings，讀稿語音平均邊界誤差約 30 ms，對話語音約 41 ms；長音訊則用 conditional continuation 避免一般分段轉錄常見嘅重複漏字。README 亦提到推理端基於 CTranslate2，配合 speculative decoding，同時減輕 Whisper 常見 looping-hallucination 問題，方向明顯係朝住 production inference。

verbatim 與 intended 兩種模式分開控制，適合同一錄音對應不同工作流
支援 multilingual，覆蓋多數 Whisper 支援語言
可用 Verbatimize 依據音訊加乾淨文本補回真實語氣詞與口誤
長音訊轉錄著重連續性，減少 chunk 邊界造成嘅錯漏
Nyra Verbatim Speech Benchmark 以 disfluency F1 等指標衡量保真能力

安裝與部署方向相對清晰：模型可經 PyPI、Hugging Face 同文件使用，推理路線圍繞 CTranslate2 runtime，而唔係只停留喺研究展示。要留意嘅取捨亦好直接，當你要的是可讀、可發布文本，intended 模式更合適；當你要保留猶豫、重複、笑聲同語音事件，verbatim 模式先真正發揮價值。呢個項目唔係單靠更高 WER 成績去吸引人，而係重新界定逐字稿應否忠於說話表面形式，並且用 benchmark 將呢件事量化。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, 文字轉語音, Medical醫學, 模型, 語音, Dataset 數據集

audio.cpp-webui：本地音訊 AI 一站式介面

2026 年 7 月 13 日

要同一部電腦處理 TTS、voice cloning、ASR 同音訊增強，最大阻力往往唔係模型本身，而係部署鏈太散。audio.cpp-webui 把這件事收斂成一個偏向本地部署的音訊推理框架＋WebUI 工具：核心沿用上游 0xShug0/audio.cpp，以 C++ 配合 ggml 執行，這個分支再補上完整任務介面同較友善的 Windows 啟動方式。

它的定位幾清楚：唔係只做單一模型展示，而係想用同一套 runtime 接住多類音訊工作流。你會見到它涵蓋 TTS、voice conversion、ASR、diarization、VAD、source separation，連 denoise、resampling、STFT/ISTFT 都內建，較接近「把多個音訊 AI 能力放入同一個本地工作台」，而唔係逐個 Python 項目分開跑。

本地语音 AI 终于统一了！实时对话、声音克隆、AI 翻唱8G 显存全跑通｜audio.cpp｜整合包

Watch this video on YouTube

跟常見 Python 參考路徑相比，這個項目的取向是用原生執行環境換取更穩定的部署體驗同速度，代價是功能節奏仍然受上游整合進度影響，而且部分高階流程像 JSON pipeline 仍屬 experimental。效能數字是它最值得留意的一環：多條 TTS 路徑在 CUDA 上可比 Python reference paths 快 1.8x 至 5.0x，端到端延遲可降低 45% 至 80%；README 亦列出 VibeVoice 1.5B 能在 18.2 分鐘生成 93.9 分鐘 podcast。

可用 webui.bat 啟動 Gradio WebUI，本地網址是 http://127.0.0.1:7860
支援按需載入模型、模型切換、下載模型、上傳或錄製 reference voice
內建進階參數控制，同頁可見執行狀態與錯誤訊息
較適合想在 Windows 或本地 CUDA 環境整合多種音訊任務的人員與小團隊

相關模型與路線目前集中在多種本地音訊模型家族，文中點名 VibeVoice 1.5B，整體則圍繞現代 audio models 的統一推理。對內容製作、語音原型、內部工具驗證，甚至要把多步驟流程包成固定操作的人來說，它補上的並非新奇功能，而是把本來零散的模型執行方式整理成較可重用、較易維護的本地項目基礎。

GitHub

Categories: 開源, NVIDIA, 文字轉語音, Audio, 工具, Clone, Python, 語音

Higgs TTS 3：4B 多語語音生成模型

2026 年 7 月 3 日

這是一個文字轉語音模型 Higgs TTS 3 4B；暫沒有標明它是基於哪個 base model 微調而成。它主要用來把模型回應轉成更接近對話風格的語音，而不只是朗讀文字，並支援 zero-shot voice cloning、情緒、語氣、停頓同 sound effects 控制。

模型核心是約 4B 參數的 autoregressive decoder，規格包括 36 layers、hidden size 2560，以及 GQA 32/8。音訊端先由 Higgs Tokenizer 編碼成 8 個 codebooks、25 fps 的 audio tokens，再透過 delay pattern、multi-codebook fused embedding 同 multi-codebook fused head 處理，最後還原成 24 kHz waveform；這種設計重點在於同時建模文字與音訊 token，讓語音表達更連續。

訓練序列長度為 8,192 tokens，對長句、多輪語音回應會有幫助。語言覆蓋超過 100 種，並提到 102 種語言做到單位數 WER/CER，其中 85 種達到低於 5 的水準，代表它不只追求可讀性，亦重視跨語言穩定度。

定位清楚：偏向 voice chat 與 expressive conversational speech，而非單純 TTS 朗讀器。
控制能力完整：可直接控制 emotion、style、prosody、pauses 與 sound effects。
多語能力強：支援 100+ 語言，102 種語言有公開 WER/CER 描述。
授權限制明確：只開放 research and non-commercial use，商業用途需另取授權。

模型未提供 GGUF 格式、量化級別、檔案大小、mmproj、llama.cpp、Ollama 或 LM Studio 支援資訊，也未見 v2 檔名變更、chat template 注意事項與 MTP draft speculation 相關內容；這些多數屬於 LLM 或多模態推理頁面常見資訊，並非此 TTS 頁面的重點。使用上更值得留意的是授權條款與風險限制，包括未經同意的 voice cloning、冒充、詐騙、選舉誤導與生物識別監控都被禁止。

項目主頁 · 模型

Categories: 開源, 文字轉語音, Audio, Clone, 模型, 語音

CantoneseChat：會聽聲調語氣的粵語聊天 App

2026 年 6 月 27 日

Cantonese Chat iOS app demo — Home / Chat / TTS Lab

CantoneseChat 是一個 iOS 粵語語音聊天工具項目，核心目標不是做通用聊天介面，而是把 iPhone 收音、on-device 粵語 STT、MiniMax cloud 的 LLM + TTS，以及 persona 語氣控制接成一條完整流程。它實際解決的問題，是一般語音助手識到字，但未必講得似香港人，亦未必會按說話者特徵調整語氣。

這個項目最值得留意的地方，是它會先用 AVAudioEngine 收音，再把音訊 downsample 去 16kHz，用 autocorrelation 估 pitch，推斷 VoiceType、Gender 同 AgeGroup，之後把結果注入 LLM system prompt。這種做法不是高精度聲紋身份辨識，而是偏向 heuristic 的語氣適配，所以速度會較直接，代價是分類準確度很受環境噪音、聲線變化同 pitch 規則影響。

安裝與理解方式也算清晰：它是 iPhone 真機導向的 iOS App，因為核心功能依賴 mic、AVAudioEngine、本機語音輸入同雲端模型串接，單看資料已可判斷模擬器未必能完整反映效果。測試時應分開看幾部分：persona 對話是否有語氣差異、TTS Lab 經 AI 粵語優化後是否更口語、pronunciation_overrides.txt 能否修正讀音，以及 iCloud export 有沒有順利保存音頻。

支援 6 個 persona，適合示範同比較不同說話風格
用 pitch heuristic 分類 VoiceType，再推斷 Gender、AgeGroup
整合 on-device 粵語 STT、MiniMax cloud 的 LLM + TTS
提供 pronunciation_overrides.txt 修正粵語讀音
可將生成音頻匯出到 iCloud Drive

受益最大的人，會是想做香港市場語音互動介面的人，例如客服示範、教育對話、角色語音內容，或者想研究粵語人機互動體驗的小團隊。若你重視可控語氣、多 persona 展示同本地口語感，它有明確方向；若你追求嚴格年齡性別判斷，這套規則式分類就應視為體驗輔助，而不是可靠的人口統計模型。

相關模型與模組方面，已知包括 MiniMax cloud 的 LLM 與 TTS、iOS on-device 粵語 STT，以及項目內以 pitch 為基礎的 VoiceType 分類流程。公開資訊未見標準基準測試或 OSWorld 這類評測結果，所以較合理的判斷方式，是把它看成一個完成度不錯、偏產品原型取向的粵語語音互動項目。

GitHub： https://github.com/elbartohub/CantoneseChat

Categories: 開源, 香港, 文字轉語音, Audio, 語音, MiniMax

dots.tts：支持廣東話的連續式語音合成

2026 年 6 月 25 日

dots.tts 是一個文字轉語音（Text-to-Speech, TTS）模型，主要用來將輸入文字轉成自然語音，並兼顧聲線模仿同情緒表達。它採用全連續、端到端的自回歸（Autoregressive, AR）設計，整條流程都唔用離散 token，這點同不少傳統 TTS 做法有明顯分別。

項目提供本地模型目錄或 Hugging Face repo id 載入方式，亦有 CLI、Python API 同 Gradio 網頁示範可試。用 --prompt-audio 配合 --prompt-text 可以做延續式 cloning；只給 --prompt-audio 時則走 x-vector-only cloning；而 --language 可幫多語言或 code-switching 文字鎖定語言標籤。

这开源TTS 太狠了：3 秒复刻音色+情绪迁移，还能实时朗读！

Watch this video on YouTube

它的取向偏向高保真同穩定生成，而唔係只追求速度。官方數據顯示，dots.tts 在 Seed-TTS-Eval 取得較佳平均表現，zh / en / zh-hard 的 WER 分別係 0.94% / 1.30% / 6.60%，MiniMax multilingual benchmark 亦有 83.9 的平均 speaker similarity，反映它在聲音相似度同多語言能力上都有競爭力。

較適合做語音產品原型、配音流程、虛擬人聲、以及需要少量參考音去複製語氣嘅團隊。要留意參考音大約 10 秒較合適，而且 --prompt-text 必須同參考錄音內容一致，否則穩定性會下降。

2B 參數、全連續 AR TTS，核心目標係文字轉自然語音
支援 voice cloning、多語言同情感表達
提供 CLI、Python API、Web Demo，方便測試同部署
評測上在 Seed-TTS-Eval 同 MiniMax multilingual 都有強勢成績
相關模型包括 dots.tts-base、dots.tts-soar、dots.tts-mf

GitHub： https://github.com/rednote-hilab/dots.tts

模型： https://huggingface.co/collections/rednote-hilab/dotstts

Categories: 開源, 文字轉語音, API, Audio, Clone, Python, Python NLP, 模型, 語音

JoyAI-VL-Interaction 把影像助手變主動

2026 年 6 月 17 日

現時多數視覺語言模型仍然沿用 turn-based 問答範式：用戶問一句，模型答一句；就算放進視像通話或直播介面，底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法，改成持續觀看、按秒判斷要沉默、回應，還是把難題交給背景模型處理，目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型加可部署系統項目，想解決的不是普通問答，而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型，支援 real-time video-language interaction，並配合 time-aligned interaction data、training recipe 與完整系統，重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己，最容易的測試場景是把 webcam、直播畫面或監控串流接入，觀察它會否在有事件時主動開口，而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範，甚至要一邊看影像一邊調用 API 或 agent 的流程。