ACE-Step-1.5:超越幾乎所有商業替代方案的最強本地音樂生成模型,支援 Mac、AMD、Intel 和 CUDA 裝置

StepFun Logo
ace-step/ACE-Step-1.5 on GitHub

ACE-Step v1.5 是一款開創性的開源音樂生成模型,將商業級別的品質帶到消費級硬體上,使其成為音樂創作者、製作人和愛好者的無價工具。該模型擅長快速生成高品質音樂,能夠在 A100 GPU 上於不到 2 秒內生成完整歌曲,在 RTX 3090 上則在不到 10 秒內完成。其效率和性能使廣泛的使用者群體,從業餘愛好者到專業製作人,都能利用先進的音樂生成能力,而無需依賴昂貴的商業軟體。

對於考慮使用 ACE-Step v1.5 的使用者,首先應關注其混合架構,該架構結合了語言模型(LM)與擴散變換器(DiT)。LM 作為規劃者,將使用者查詢轉換為全面的歌曲藍圖,而 DiT 則合成實際的音頻。這種獨特的設置允許對音樂生成過程進行精確控制,使使用者能夠創建從短循環到 10 分鐘作品的各種組成。該模型支援超過 1000 種樂器和風格,提供細緻的音色描述,以滿足多樣化的音樂偏好。

在實際應用中,ACE-Step v1.5 通過使用 LM 生成元數據、歌詞和字幕,透過鏈式思維來引導 DiT 合成音樂。這種內在的強化學習方法確保了對齊,而不受外部偏見的影響,從而生成緊密遵循使用者提示的音樂。使用者還可以透過輕量級 LoRA 訓練來個性化模型,僅需幾首歌曲即可捕捉他們獨特的風格。此功能對於希望創作出反映個人風格的藝術家特別有益。

ACE-Step v1.5 的優勢對於需要多功能和高品質音樂生成工具的音樂創作者來說最為顯著。它支援超過 50 種語言的多語言歌詞,允許全球範圍的創意表達。此外,該模型還提供各種編輯功能,如封面生成、重新繪製和人聲轉 BGM 轉換,增強了其在創意工作流程中的實用性。內容創作者、音樂製作人和藝術家可以將 ACE-Step v1.5 無縫整合到他們的專案中,從其速度、品質和靈活性中受益。

ACE-Step 1.5 XL = Free Music Generation in ComfyUI!

然而,也有一些權衡需要考慮。儘管 ACE-Step v1.5 高度高效,但其性能嚴重依賴於所使用的硬體。使用較弱 GPU 的使用者可能會經歷較慢的生成時間或模型大小的限制。該模型還需要至少 4GB 的 VRAM 才能本地運行,這對於某些使用者來說可能是一個限制。此外,生成的音樂品質,雖然令人印象深刻,但在某些情況下可能無法完全匹配人類創作的組成的細微差異。使用者應準備對輸出進行微調和調整,以更好地滿足他們的特定需求。

為了充分利用 ACE-Step v1.5,使用者應熟悉其各種功能和設置。該模型提供多種語言的廣泛文檔,包括 Gradio Web UI、Studio UI、VST3 插件、Python API、REST API 和 CLI 的指南。這些資源提供了詳細的說明,從基本的音樂生成到高級自訂和訓練,如何有效地使用該模型。透過探索這些工具,使用者可以釋放 ACE-Step v1.5 的全部潛力,創作出符合他們創意願景的音樂。

總之,ACE-Step v1.5 代表了開源音樂生成領域的重大進步,為創作者提供了一個強大且多功能的工具。其速度、品質和自訂選項的結合,使其成為任何希望提升音樂製作能力的人的寶貴資產。儘管存在一些硬體和品質方面的考慮,但對於大多數使用者來說,使用 ACE-Step v1.5 的好處遠遠超過了權衡。透過利用其先進的功能和廣泛的文檔,創作者可以產生高品質的音樂,反映他們獨特的風格和願景。

Source: https://github.com/ace-step/ACE-Step-1.5

Categories: 模型, 開源, 音樂

ACE-Step v1.5 開源音樂基礎模型

ACE-Step v1.5 是一款高效的開源音樂基礎模型,可將商業級音樂生成功能帶到消費級硬體平台。在常用的評估指標上,ACE-Step v1.5 的音質超越了大多數商業音樂模型,同時速度極快——在 A100 上生成一首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。該模型可在本地運行,僅需不到 4GB 的顯存,並支援輕量級個人化:用戶只需幾首歌曲即可訓練 LoRa 來捕捉自己的音樂風格。實測結果:

(主歌1)
霓虹閃爍的訊號裡,我聽見你呼吸的頻率。數位心跳對齊節拍,在光的碎片裡相遇。
(Pre‑Chorus)
電流穿過沉默的夜,你的笑是程式裡的解。我追著節奏不回頭,感覺像永遠不會舊。
(副歌)
一起在AI夢裡跳,節拍讓我們燃燒。
電子浪潮衝破訊號,讓心越飄越高。
(橋段)
每一聲呼吸都在閃耀,每一行代碼都是心跳。你在那螢光雲端微笑,我在夢境裡呼喊你的名字。
(尾聲)
不論是現實或訊號,我們在節拍裡擁抱。夜的盡頭沒有停靠,只剩我們一起奔跑。
Categories: 開源, 音樂

HeartMuLa 音樂家族基礎模型

HeartMuLa 是個完全開放 source 的音樂基礎模型家族,整個系統把四個核心功能結合在一起:首先是 HeartCLAP,負責把音樂和文字換位成共享的嵌入空間,讓系統能夠精準地把音樂標籤對應到文字敘述,並支援跨模式檢索。接下來是 HeartTranscriptor,專門用來在實際音樂裡捕捉歌詞,即使在背景噪音或複雜編曲之下也能保持較低的錯字率。第三個組件是 HeartCodec,它以極低的頻率(每秒 12.5 次)進行音訊壓縮,卻仍保留細節,使得長篇音樂能夠在解壓時恢復高保真度,同時提供緊湊的離散表示,方便後續的 autoregressive 生成。最後是 HeartMuLa 本身,這是一個以大型語言模型為基礎的歌曲生成模型,接受使用者提供的文字風格描述、完整歌詞甚至參考音頻作為條件,並能在多種可控制維度上操作,例如指定段落的流派、情緒、節奏或其他音樂特徵。

HeartMuLa: A Family of Open Sourced Music Foundation Models

它還提供兩個特別模式:一種適合當作短視訊背景音的快速生成,另一種則可以在全曲長度(最長可達六分鐘)上維持結構連貫性與風格多樣性,並允許使用者針對不同段落(如主歌、副歌)輸入自然語言指令,精細調整音樂風格。

Categories: 模型, 開源, 音樂



JAM – 基於串流的微型歌曲生成器

近年來,擴散模型和流匹配模型徹底改變了文字轉音頻的自動生成。這些模型產生高品質、忠實的音訊輸出的能力日益增強,能夠捕捉語音和聲學事件。然而,在主要涉及音樂和歌曲的創意音訊生成方面,仍有很大改進空間。近期推出的開放式歌詞轉歌曲模型,例如 DiffRhythm、ACE-Step 和 LeVo,已經為娛樂用途的自動歌曲生成樹立了可接受的標準。然而,這些模型缺乏音樂家在工作流程中經常需要的細粒度的詞級控制能力。他們基於流匹配的 JAM 是首次在歌曲生成中引入詞級時間和時長控制,從而實現細致度的人聲控制。為了提高生成的歌曲質量,使其更符合人類的偏好,我們透過直接偏好優化 (Direct Preference Optimization) 實現了美學一致性,該方法使用合成資料集迭代地優化模型,從而無需手動進行資料註釋。此外,他們旨在透過公開評估資料集 JAME 來標準化此類歌詞到歌曲模型的評估。他們證明,JAM 在音樂特定屬性方面的表現優於現有模型。

JAM 建構於一個緊湊的 530M 參數架構之上,並以 16 個 LLaMA 風格的 Transformer 層作為 Diffusion Transformer (DiT) 的主幹,從而實現了音樂家在工作流程中所需的精準人聲控制。與先前的模型不同,JAM 提供詞級和音素級的時序控制,使音樂家能夠指定每個人聲的精確位置,從而提高節奏的靈活性和表現力。

Categories: 開源, 音樂

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型,專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性,因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意,並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法,成功生成長達五分鐘的歌曲,並在多種音樂風格和語言中展現了令人印象深刻的結果。(支持生成塑料粵語歌

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!
Categories: 模型, 開源, 音樂