



功能:
如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型
從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。
對於中文自動語音識別(另外),從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。
對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。
數據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能,亦提供料多種創意模式:
AI Supermodel Generation – 上傳一張人體模型或業餘人像照片,馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。
Creative Fusion – 將草圖與藝術風格融合,創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。
Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置,以獲得更理想的效果。
Image Variation – 這是 img2img,產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。
Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。 避免一次將面積擴大太多。
(more…)人工智慧的力量正進入第三維度。 使用提示產生 3D 物件、動畫和紋理。 在人工智慧的幫助下,更快地設計並觀看您的想法變為現實。
(more…)語料庫將會不斷擴充。。。
一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)
二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)
Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。
1.維基百科(wiki2019zh),100萬個結構良好的中文詞條
2.新聞語料(news2016zh),250萬篇新聞,含關鍵詞、描述
3.百科問答(baike2018qa),150萬個帶問題類型的問答
4.社區問答json版(webtext2019zh),410萬個高質量社區問答,適合訓練超大模型
5.翻譯語料(translation2019zh),520萬個中英文句子對
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,
普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,
在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。
不知道你是否也遇到了這樣的問題?
我們這個項目,就是為瞭解決這一問題貢獻微薄之力。
Audiobox 是 Meta 的新音訊生成基礎研究模型。 集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果,從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound,所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。