RVC-Boss/GPT-SoVITS 語音合成模型

功能:

  1. 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
  2. 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
  3. 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
  4. WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。

如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型

GPT-SoVITS语音克隆AI,只需一分钟素材训练模型,效果堪比商用。一键安装,附Colab脚本 | TTS | RVC|GPT-SoVITS Colab

從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。

對於中文自動語音識別(另外),從 Damo ASR ModelDamo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。

對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。

數據集格式

文本到語音(TTS)注釋 .list 文件格式:

vocal_path|speaker_name|language|text

語言字典:

  • ‘zh’: Chinese
  • ‘ja’: Japanese
  • ‘en’: English

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

Categories: 文字轉語音, Audio, 軟件

Moore-AnimateAnyone

GitHub – MooreThreads/Moore-AnimateAnyone

Moore-AnimateAnyone 是一個開放源碼的專案,由 MooreThreads 創建與維護。此專案的目的是讓用戶能夠用簡便的方式來動畫化任何人物。

透過這個軟件,用戶可以將靜態的圖片或者是人物照片轉化成動態的動畫。它能讓角色栩栩如生,仿佛擁有了自己的情感和行動,這對於動漫創作者、游戲開發者或是任何需要虛擬人物動畫的創意工作者來說,都是一個非常有用的工具。

該平台的設計考慮到了易用性,即便是沒有編程經驗的人也可以輕鬆上手。用戶可以自定義角色的行為,並將它們應用於不同的娛樂或教育場景中。

此外,Moore-AnimateAnyone 專案鼓勵開源協作。這意味著任何有興趣的開發者都可以加入這個專案,通過貢獻代碼、文檔、反饋和維護等方式來完善這一工具。

Categories: 軟件

台灣-繁體中文 LLM v2,包括 7B 和 13B 模型

Taiwan LLM 基於 Meta Llama 2 的全參數微調模型技術,融合台灣本土的文本資料,包括公開的百科、新聞、小說、雜誌以及社群討論等,涵蓋超過 200 億個繁體中文字,使大型語言模型能對台灣地區的問題回答得更精確

Taiwan-LLM 是一個基於 Meta/LLaMa-2 ,適用於繁體中文應用。

台灣-LLM v2.0 13B 對超過 300 億個標記進行了預訓練,並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v2.0 7B 對超過 300 億個標記進行了預訓練,並對超過 100 萬個傳統普通話指令跟踪對話進行了指令調整。

台灣-LLM v1.0 13B 對超過 50 億個標記進行了預訓練,並對超過 49 萬個傳統普通話對話進行了指令調整。

Categories: 軟件

Amphion 多功能聲頻 LLM

香港中文大學(深圳)、上海人工智慧實驗室和深圳大數據研究院聯合開發。

(more…)
Categories: 香港中文大學, 軟件

LM Studio 0.3.13

使用本地 LLM(Large Language Model) 的主要原因之一是隱私,LM Studio 就是為此而設計的。 LM Studio 不會收集數據,也不監視您的行為。

Categories: 軟件, 工具

Outfit Anyone – 超高品質虛擬換衫

現有的方法通常難以產生高保真度和細節一致的結果。 擴散模型已經證明了它們產生高品質和逼真影像的能力,但當涉及到虛擬試穿等條件生成場景時,它們在實現控制和一致性方面仍然面臨挑戰。 Outfit Anybody 透過利用雙流條件擴散模型解決了這些限制,使其能夠熟練地處理服裝變形以獲得更逼真的結果。 它的特點是可擴展性(調節姿勢和體型等因素)和廣泛的適用性,從動漫延伸到野外圖像。 Outfit Anybody 在不同場景中的表現強調了其實用性和對現實世界部署的準備。

Categories: 軟件

Gemini API – 正式推出

Gemini 是由 Google 開發的最新大型語言模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務,例如:

  • 推理: Gemini 可以使用其知識庫來回答問題並做出預測。例如,它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
  • 創造力: Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
  • 翻譯: Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言,包括英語、中文、法語、德語和西班牙語。
  • 摘要: Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。

Gemini 與其他 GPT 模型的不同之處在於:

  • 規模: Gemini 是目前最大的 GPT 模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
  • 多模態: Gemini 可以處理多種模態的數據,包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
  • 因果推理: Gemini 可以進行因果推理,這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。

Gemini 是一個非常強大的語言模型,它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。

(more…)
Categories: 軟件

SeamlessM4T v2- 即時語音翻譯模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務:

  • 語音轉語音翻譯 (S2ST)
  • 語音轉文字翻譯 (S2TT)
  • 文字轉語音翻譯 (T2ST)
  • 文本到文本翻譯 (T2TT)
  • 自動語音辨識 (ASR)
(more…)
Categories: 文字轉語音, 軟件


LaVie 高質量視頻生成框架

這是個高質量視頻生成框架,使用級聯潛在擴散模型(Cascaded Latent Diffusion Models)進行文本到視頻(Text-to-Video)生成,是Vchitect視頻生成系統的主要組成部分。項目提供了使用PyTorch實現的LaVie的官方代碼。

您可以從GitHub頁面下載。通過文本描述,生成與文本相對應的視頻。項目還提供了預訓練模型和示例代碼,助您進行推理和生成自己的視頻。

LaVie是一個基於機器學習的視頻生成框架,它使用了一種稱為級聯潛在擴散模型(Cascaded Latent Diffusion Models)的技術。這種模型可以通過將文本描述轉化為視頻序列來實現文本到視頻的生成。

LaVie項目的GitHub頁面還提供了示例代碼和相關配置文件,可以幫助您更好地理解和使用該框架。您可以根據示例代碼進行自己的實驗和應用。

請注意,LaVie的使用可能需要具備一定的機器學習和深度學習知識,以及相應的計算資源。如果您對LaVie感興趣,建議您仔細閱讀項目的文檔和代碼,並根據需要進行相應的學習和實踐。

Categories: 軟件

Page 3 of 5
1 2 3 4 5