Audio

MMAudio 自動配音效模型

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube

Categories: Audio, 模型, 聲效

Hello2 – 高清 LipSync 工具

GitHub – fudan-generative-vision/hallo2: Hallo2: Long-Duration and High-Resolution Audio-driven Portrait Image Animation

Hallo2: Long-Duration and High-Resolution Audio-driven Portrait Image Animation – fudan-generative-vision/hallo2

Categories: Video, Audio, 模型

LogicPro 11 -「AI 做歌真神奇」

香港音樂人試用 LogicPro 11 編曲、混音、Mixing、去人聲、自動分 Track 「AI 做歌真神奇」

Watch this video on YouTube

Categories: Audio

MVSEP – 自制 Karaoke 必備

分離人聲與伴奏

MVSEP將從音頻中分離出人聲與伴奏、從音頻中提取文本，並且免費。使用AI。

新增了新版本的 BSRoformer 權重。目前它可能是世界上最好的可用模型。

Categories: Audio, 線上服務

RVC-Boss/GPT-SoVITS 語音合成模型

語音轉換與語音合成 Web 界面。

功能：

零樣本文本到語音（TTS）：輸入5秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本TTS：僅需1分鐘的訓練數據即可微調模型，提升聲音相似度和真實感。
跨語言支持：支持與訓練數據集不同語言的推理，目前支持英語、日語和中文。
WebUI工具：集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注，協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶（已在 win>=10上測試），可以直接通過預打包文件安裝。只需下載預打包文件，解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI，只需一分钟素材训练模型，效果堪比商用。一键安装，附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

Watch this video on YouTube

從 GPT-SoVITS Models 下載預訓練模型，並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別（另外），從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型，並將它們放置在 tools/damo_asr/models 中。

對於UVR5（人聲/伴奏分離和混響移除，另外），從 UVR5 Weights 下載模型，並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音（TTS）注釋 .list 文件格式：

vocal_path|speaker_name|language|text

語言字典：

‘zh’: Chinese
‘ja’: Japanese
‘en’: English

示例：

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

Categories: 文字轉語音, Audio, 軟件

AudioBox –

Audiobox – Meta 的音訊生成基礎研究模型

Audiobox 模型系列還包括專業模型 Audiobox Speech 和 Audiobox Sound

Audiobox 是 Meta 的新音訊生成基礎研究模型。集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果，從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound，所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。

馬上體驗 – 多種聲效 – 創作故事

Categories: Audio, 線上服務