RVC-Boss/GPT-SoVITS 語音合成模型
功能:
- 零樣本文本到語音(TTS): 輸入5秒的聲音樣本,即刻體驗文本到語音轉換。
- 少樣本TTS: 僅需1分鐘的訓練數據即可微調模型,提升聲音相似度和真實感。
- 跨語言支持: 支持與訓練數據集不同語言的推理,目前支持英語、日語和中文。
- WebUI工具: 集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和GPT/SoVITS模型。
如果你是 Windows用戶(已在 win>=10上測試),可以直接通過預打包文件安裝。只需下載預打包文件,解壓後雙擊 go-webui.bat 即可啓動 GPT-SoVITS-WebUI。預訓練模型
從 GPT-SoVITS Models 下載預訓練模型,並將它們放置在 GPT_SoVITS\pretrained_models 中。
對於中文自動語音識別(另外),從 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下載模型,並將它們放置在 tools/damo_asr/models 中。
對於UVR5(人聲/伴奏分離和混響移除,另外),從 UVR5 Weights 下載模型,並將它們放置在 tools/uvr5/uvr5_weights 中。
數據集格式
文本到語音(TTS)注釋 .list 文件格式:
vocal_path|speaker_name|language|text
語言字典:
- ‘zh’: Chinese
- ‘ja’: Japanese
- ‘en’: English
示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
MS-Vid2Vid (Video-to-Video)高清視頻生成大模型

「MS- Video-to-Video」係一種深度學習模型,可以將一段視頻轉換成另一種風格、場景轉換、動作等操作。例如,可以將一段日本動畫轉換成中國水墨畫風格,或者將一段街頭表演轉換成動畫風格。
MS-Vid2Vid-XL 和 Video-to-Video 第一階段相同,都是基於隱空間的視頻擴散模型(VLDM),且其共享相同結構的時空UNet(ST-UNet),其設計細節延續我們自研 VideoComposer,具體可以參考其技術報告。
PromeAI 推出更高畫質 txt2video
PromeAI 十分類似 RunwayML。除一般 txt2img、txt2video(暫時完全免費)、img2video 功能,亦提供料多種創意模式:
AI Supermodel Generation – 上傳一張人體模型或業餘人像照片,馬上可建立多種風格和背景。目前版本支援個人真人照片或帶有臉部和四肢的照片。
Creative Fusion – 將草圖與藝術風格融合,創造出獨特且令人驚嘆的藝術品。而且可調整強度以控制影像與所選樣式之間的混合程度。
Background Diffusion – 自動移除背景並根據模板或文字產生理想的背景。而且您可以調整主要部分的大小和位置,以獲得更理想的效果。
Image Variation – 這是 img2img,產生具有相似風格、佈局、視角和感官體驗的圖像。而且您可以控制相似度。
Outpainting – 根據比例或尺寸擴展圖像內容。而且您可以調整原來相片的位置來控制擴展方向。 避免一次將面積擴大太多。
(more…)Spline AI – 利用 AI 加快 3D 設計速度
人工智慧的力量正進入第三維度。 使用提示產生 3D 物件、動畫和紋理。 在人工智慧的幫助下,更快地設計並觀看您的想法變為現實。
(more…)AudioBox –
Audiobox 是 Meta 的新音訊生成基礎研究模型。 集 TTS、聲效、音樂於一身。它結合使用語音輸入和自然語言文字提示來產生語音和聲音效果,從而可以輕鬆地為創建任何音訊。 Audiobox 模型系列亦包括專業模型 Audiobox Speech 和 Audiobox Sound,所有 Audiobox 型號都基於共享的自我監督模型 Audiobox SSL 構建。
Genmo 創意研究實驗室
Genmo 致力於建立跨模式創作和分享生成藝術的工具。 我們正在推動生成模型能力的前沿。 如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段,將來會添加更多內容。
免費版可生成最長 6 秒 2304 x 1280 的高清影片。

亦可控制鏡頭的運鏡方式

除此,Genmo 亦提供生成圖片,文字對話等。

SeamlessM4T v2- 即時語音翻譯模型
無縫 M4T
Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。
M4T 是一體式大規模多語言和多模式的機器翻譯模型,可為近 100 種語言的語音和文字提供高品質翻譯。
SeamlessM4T 模型支援以下任務:
- 語音轉語音翻譯 (S2ST)
- 語音轉文字翻譯 (S2TT)
- 文字轉語音翻譯 (T2ST)
- 文本到文本翻譯 (T2TT)
- 自動語音辨識 (ASR)
HeyGen’s Avatar 2.0 – 兩分鍾生成個性化頭像視頻
Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。
- Inpaint:使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
- Outpaint:擴展畫布,選擇空白區域並自動填入與現有影像無縫融合的內容。
- 生成:透過用文字或現有圖像描述它們,從頭開始創建新圖像。支援SD1.5和SDXL。
- 優化:使用強度滑桿優化現有影像內容,而不是完全取代它。這也非常適合透過繪製(粗略)近似值並以高強度進行細化來為影像添加新內容!
- 即時繪畫:讓人工智慧即時解讀您的畫布以獲得即時回饋。看影片
- 控制:直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
- 決議:在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率,並縮放它們以適合您的圖像區域。
- 升級:將影像升級並豐富至 4k、8k 以上,而不會耗盡記憶體。
- 作業佇列:根據硬體的不同,影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
- 歷史:並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
- 強大的預設設定:多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
- 自訂:建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。
[英文] 詳細教學:




