RVC-Boss/GPT-SoVITS 語音合成模型

功能:

  1. 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
  2. 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  3. 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  4. WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別(另外),從 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。

對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音(TTS)注釋 .list 文件格式:

vocal_path|speaker_name|language|text

語言字典:

  • ‘zh’: Chinese
  • ‘ja’: Japanese
  • ‘en’: English

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

Categories: 文字轉語音, Audio, 軟件

practicalAI-cn: 實戰中文版

  •  使用 PyTorch 實現基本的機器學習算法和深度神經網絡。
  • 🖥️ 不需要任何設置,在瀏覽器中使用 Google Colab 運行所有程序。
  • 📦 不僅僅是教程,而是學習產品級的面向對象機器學習編程。
Categories: 教學

PromeAI 推出更高畫質 txt2video

PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能,亦提供料多種創意模式:

AI Supermodel Generation – 上傳一張人體模型或業餘人像照片,馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。

Creative Fusion – 將草圖與藝術風格融合,創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。

Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置,以獲得更理想的效果。

Image Variation – 這是 img2img,產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。

Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。 避免一次將面積擴大太多。

(more…)
Categories: 線上服務



大規模中文自然語言處理 nlp_chinese_corpus

語料庫將會不斷擴充。。。

一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)

二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)

Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。

1.維基百科(wiki2019zh)100萬個結構良好的中文詞條

2.新聞語料(news2016zh)250萬篇新聞,含關鍵詞、描述

3.百科問答(baike2018qa)150萬個帶問題類型的問答

4.社區問答json(webtext2019zh)410萬個高質量社區問答,適合訓練超大模型

5.翻譯語料(translation2019zh)520萬個中英文句子對

為什麼需要這個項目

中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,

普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,

在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。

不知道你是否也遇到了這樣的問題?

我們這個項目,就是為瞭解決這一問題貢獻微薄之力。

Categories: 教學

Word2vec 模型構建的實踐過程

Categories: 教學

【LLaMA-Factory】開源語言模型微調專案

Categories: 教學

AudioBox –

Audiobox 是 Meta 的新音訊生成基礎研究模型。 集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果,從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound,所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。

馬上體驗 – 多種聲效創作故事

Categories: Audio, 線上服務

Page 17 of 21
1 15 16 17 18 19 21