HeartMuLa 音樂家族基礎模型

HeartMuLa 是個完全開放 source 的音樂基礎模型家族,整個系統把四個核心功能結合在一起:首先是 HeartCLAP,負責把音樂和文字換位成共享的嵌入空間,讓系統能夠精準地把音樂標籤對應到文字敘述,並支援跨模式檢索。接下來是 HeartTranscriptor,專門用來在實際音樂裡捕捉歌詞,即使在背景噪音或複雜編曲之下也能保持較低的錯字率。第三個組件是 HeartCodec,它以極低的頻率(每秒 12.5 次)進行音訊壓縮,卻仍保留細節,使得長篇音樂能夠在解壓時恢復高保真度,同時提供緊湊的離散表示,方便後續的 autoregressive 生成。最後是 HeartMuLa 本身,這是一個以大型語言模型為基礎的歌曲生成模型,接受使用者提供的文字風格描述、完整歌詞甚至參考音頻作為條件,並能在多種可控制維度上操作,例如指定段落的流派、情緒、節奏或其他音樂特徵。

HeartMuLa: A Family of Open Sourced Music Foundation Models

它還提供兩個特別模式:一種適合當作短視訊背景音的快速生成,另一種則可以在全曲長度(最長可達六分鐘)上維持結構連貫性與風格多樣性,並允許使用者針對不同段落(如主歌、副歌)輸入自然語言指令,精細調整音樂風格。

Categories: 模型, 開源, 音樂