MiniMax Hub:本機優先的多模態創作工作站

MiniMax Hub

MiniMax Hub 是一個 Multimodal Creative Agent,定位像 AI 創作工作站,不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程,讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載,輸入簡報、文字想法,或直接加入本機素材後,主代理會先理解創作目標,再做 Smart task decomposition,之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型,亦會在關鍵節點收到確認,避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格,之後可重複套用;如果需要,也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說,這類流程重用能力相當實用。

  • 本機優先設計,頁面明確指出 local files stay on your machine
  • 單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
  • 支援資產管理與 batch generation,可一次產出多個版本
  • 代理會自動分解任務,並在關鍵步驟要求人工確認
  • 可把工作流程沉澱成 Skills,逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作,而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果,因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單,只提到會自動匹配最合適模型。

項目: https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

Magenta RealTime 2:即時生成音樂的開放模型

Repository image for magenta/magenta-realtime

Magenta RealTime 2(MRT2)是個即時音樂生成的 open-weights model,重點不只是一個模型,還連同 Python 推論庫 magenta-rt、C++ 推論引擎 magentart::core,以及可直接延伸成應用程式的示例一併提供。對想將生成式音樂放入創作工具、互動程式或聲音實驗的人來說,這個項目比單純放出模型更完整。

不少音樂生成模型可以離線產出內容,但要做到邊播邊生成、能配合演奏或介面互動,系統延遲、串流效率與硬件限制都會變成關鍵。MRT2 直接針對 real-time streaming 設計,並且把 Apple Silicon MacBook 的串流音訊生成列為核心場景,令開發者較容易把模型接入 DAW、獨立 app 或其他音樂工具。

Magenta RealTime 2 可按需要選擇 Python 或 C++ 路線:想試模型行為,可用 magenta-rt 配合 JAX 或 MLX;想做較高效率的音訊串流,則可留意 magentart::core;要接近成品流程,儲存庫內亦有 AUv3 plugin、standalone macOS app、note control 與 prompt space 探索工具。這種由底層推論到示例應用都齊備的安排,對建立原型特別有幫助。

  • 提供兩個模型:mrt2_small(230M)與 mrt2_base(2.4B)
  • mrt2_small 可在多款 Apple Silicon Mac 即時運行,Air 系列亦可支援
  • mrt2_base 音質定位較高,但即時串流需 Pro Max 級別晶片
  • Python 路線支援 JAX、MLX,亦提到可在 NVIDIA GPU 做 offline inference
  • 內附 AUv3、standalone app 與互動示例,方便延伸成創作工具

性能資訊在這個項目中算是寫得具體:即時串流明確依賴 Apple Silicon(M 系列),而且不同晶片對 mrt2_base 的支援有清楚區分。從已公開資料看,mrt2_small 較適合大部分開發與測試場景,mrt2_base 則偏向追求更高品質、且手上有較高階 Mac 的用家。若你正在做音樂科技項目、DAW 擴充、互動聲音裝置,或者想研究生成模型如何接入即時工作流,這個項目相當值得留意。

GitHub: https://github.com/magenta/magenta-realtime

Categories: 開源, Google, 音樂, 蘋果

ACE-Step-1.5:超越幾乎所有商業替代方案的最強本地音樂生成模型,支援 Mac、AMD、Intel 和 CUDA 裝置

StepFun Logo
ace-step/ACE-Step-1.5 on GitHub

ACE-Step v1.5 是一款開創性的開源音樂生成模型,將商業級別的品質帶到消費級硬體上,使其成為音樂創作者、製作人和愛好者的無價工具。該模型擅長快速生成高品質音樂,能夠在 A100 GPU 上於不到 2 秒內生成完整歌曲,在 RTX 3090 上則在不到 10 秒內完成。其效率和性能使廣泛的使用者群體,從業餘愛好者到專業製作人,都能利用先進的音樂生成能力,而無需依賴昂貴的商業軟體。

對於考慮使用 ACE-Step v1.5 的使用者,首先應關注其混合架構,該架構結合了語言模型(LM)與擴散變換器(DiT)。LM 作為規劃者,將使用者查詢轉換為全面的歌曲藍圖,而 DiT 則合成實際的音頻。這種獨特的設置允許對音樂生成過程進行精確控制,使使用者能夠創建從短循環到 10 分鐘作品的各種組成。該模型支援超過 1000 種樂器和風格,提供細緻的音色描述,以滿足多樣化的音樂偏好。

在實際應用中,ACE-Step v1.5 通過使用 LM 生成元數據、歌詞和字幕,透過鏈式思維來引導 DiT 合成音樂。這種內在的強化學習方法確保了對齊,而不受外部偏見的影響,從而生成緊密遵循使用者提示的音樂。使用者還可以透過輕量級 LoRA 訓練來個性化模型,僅需幾首歌曲即可捕捉他們獨特的風格。此功能對於希望創作出反映個人風格的藝術家特別有益。

ACE-Step v1.5 的優勢對於需要多功能和高品質音樂生成工具的音樂創作者來說最為顯著。它支援超過 50 種語言的多語言歌詞,允許全球範圍的創意表達。此外,該模型還提供各種編輯功能,如封面生成、重新繪製和人聲轉 BGM 轉換,增強了其在創意工作流程中的實用性。內容創作者、音樂製作人和藝術家可以將 ACE-Step v1.5 無縫整合到他們的專案中,從其速度、品質和靈活性中受益。

ACE-Step 1.5 XL = Free Music Generation in ComfyUI!

然而,也有一些權衡需要考慮。儘管 ACE-Step v1.5 高度高效,但其性能嚴重依賴於所使用的硬體。使用較弱 GPU 的使用者可能會經歷較慢的生成時間或模型大小的限制。該模型還需要至少 4GB 的 VRAM 才能本地運行,這對於某些使用者來說可能是一個限制。此外,生成的音樂品質,雖然令人印象深刻,但在某些情況下可能無法完全匹配人類創作的組成的細微差異。使用者應準備對輸出進行微調和調整,以更好地滿足他們的特定需求。

為了充分利用 ACE-Step v1.5,使用者應熟悉其各種功能和設置。該模型提供多種語言的廣泛文檔,包括 Gradio Web UI、Studio UI、VST3 插件、Python API、REST API 和 CLI 的指南。這些資源提供了詳細的說明,從基本的音樂生成到高級自訂和訓練,如何有效地使用該模型。透過探索這些工具,使用者可以釋放 ACE-Step v1.5 的全部潛力,創作出符合他們創意願景的音樂。

總之,ACE-Step v1.5 代表了開源音樂生成領域的重大進步,為創作者提供了一個強大且多功能的工具。其速度、品質和自訂選項的結合,使其成為任何希望提升音樂製作能力的人的寶貴資產。儘管存在一些硬體和品質方面的考慮,但對於大多數使用者來說,使用 ACE-Step v1.5 的好處遠遠超過了權衡。透過利用其先進的功能和廣泛的文檔,創作者可以產生高品質的音樂,反映他們獨特的風格和願景。

Source: https://github.com/ace-step/ACE-Step-1.5

Categories: 開源, 模型, 音樂

ACE-Step v1.5 開源音樂基礎模型

ACE-Step v1.5 是一款高效的開源音樂基礎模型,可將商業級音樂生成功能帶到消費級硬體平台。在常用的評估指標上,ACE-Step v1.5 的音質超越了大多數商業音樂模型,同時速度極快——在 A100 上生成一首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。該模型可在本地運行,僅需不到 4GB 的顯存,並支援輕量級個人化:用戶只需幾首歌曲即可訓練 LoRa 來捕捉自己的音樂風格。實測結果:

(主歌1)
霓虹閃爍的訊號裡,我聽見你呼吸的頻率。數位心跳對齊節拍,在光的碎片裡相遇。
(Pre‑Chorus)
電流穿過沉默的夜,你的笑是程式裡的解。我追著節奏不回頭,感覺像永遠不會舊。
(副歌)
一起在AI夢裡跳,節拍讓我們燃燒。
電子浪潮衝破訊號,讓心越飄越高。
(橋段)
每一聲呼吸都在閃耀,每一行代碼都是心跳。你在那螢光雲端微笑,我在夢境裡呼喊你的名字。
(尾聲)
不論是現實或訊號,我們在節拍裡擁抱。夜的盡頭沒有停靠,只剩我們一起奔跑。
Categories: 開源, 音樂

HeartMuLa 音樂家族基礎模型

HeartMuLa 是個完全開放 source 的音樂基礎模型家族,整個系統把四個核心功能結合在一起:首先是 HeartCLAP,負責把音樂和文字換位成共享的嵌入空間,讓系統能夠精準地把音樂標籤對應到文字敘述,並支援跨模式檢索。接下來是 HeartTranscriptor,專門用來在實際音樂裡捕捉歌詞,即使在背景噪音或複雜編曲之下也能保持較低的錯字率。第三個組件是 HeartCodec,它以極低的頻率(每秒 12.5 次)進行音訊壓縮,卻仍保留細節,使得長篇音樂能夠在解壓時恢復高保真度,同時提供緊湊的離散表示,方便後續的 autoregressive 生成。最後是 HeartMuLa 本身,這是一個以大型語言模型為基礎的歌曲生成模型,接受使用者提供的文字風格描述、完整歌詞甚至參考音頻作為條件,並能在多種可控制維度上操作,例如指定段落的流派、情緒、節奏或其他音樂特徵。

HeartMuLa: A Family of Open Sourced Music Foundation Models

它還提供兩個特別模式:一種適合當作短視訊背景音的快速生成,另一種則可以在全曲長度(最長可達六分鐘)上維持結構連貫性與風格多樣性,並允許使用者針對不同段落(如主歌、副歌)輸入自然語言指令,精細調整音樂風格。

Categories: 開源, 模型, 音樂



JAM – 基於串流的微型歌曲生成器

近年來,擴散模型和流匹配模型徹底改變了文字轉音頻的自動生成。這些模型產生高品質、忠實的音訊輸出的能力日益增強,能夠捕捉語音和聲學事件。然而,在主要涉及音樂和歌曲的創意音訊生成方面,仍有很大改進空間。近期推出的開放式歌詞轉歌曲模型,例如 DiffRhythm、ACE-Step 和 LeVo,已經為娛樂用途的自動歌曲生成樹立了可接受的標準。然而,這些模型缺乏音樂家在工作流程中經常需要的細粒度的詞級控制能力。他們基於流匹配的 JAM 是首次在歌曲生成中引入詞級時間和時長控制,從而實現細致度的人聲控制。為了提高生成的歌曲質量,使其更符合人類的偏好,我們透過直接偏好優化 (Direct Preference Optimization) 實現了美學一致性,該方法使用合成資料集迭代地優化模型,從而無需手動進行資料註釋。此外,他們旨在透過公開評估資料集 JAME 來標準化此類歌詞到歌曲模型的評估。他們證明,JAM 在音樂特定屬性方面的表現優於現有模型。

JAM 建構於一個緊湊的 530M 參數架構之上,並以 16 個 LLaMA 風格的 Transformer 層作為 Diffusion Transformer (DiT) 的主幹,從而實現了音樂家在工作流程中所需的精準人聲控制。與先前的模型不同,JAM 提供詞級和音素級的時序控制,使音樂家能夠指定每個人聲的精確位置,從而提高節奏的靈活性和表現力。

Categories: 開源, 音樂

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型,專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性,因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意,並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法,成功生成長達五分鐘的歌曲,並在多種音樂風格和語言中展現了令人印象深刻的結果。(支持生成塑料粵語歌

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!
Categories: 開源, 模型, 音樂