HeartMuLa 音樂家族基礎模型

HeartMuLa 是個完全開放 source 的音樂基礎模型家族,整個系統把四個核心功能結合在一起:首先是 HeartCLAP,負責把音樂和文字換位成共享的嵌入空間,讓系統能夠精準地把音樂標籤對應到文字敘述,並支援跨模式檢索。接下來是 HeartTranscriptor,專門用來在實際音樂裡捕捉歌詞,即使在背景噪音或複雜編曲之下也能保持較低的錯字率。第三個組件是 HeartCodec,它以極低的頻率(每秒 12.5 次)進行音訊壓縮,卻仍保留細節,使得長篇音樂能夠在解壓時恢復高保真度,同時提供緊湊的離散表示,方便後續的 autoregressive 生成。最後是 HeartMuLa 本身,這是一個以大型語言模型為基礎的歌曲生成模型,接受使用者提供的文字風格描述、完整歌詞甚至參考音頻作為條件,並能在多種可控制維度上操作,例如指定段落的流派、情緒、節奏或其他音樂特徵。

HeartMuLa: A Family of Open Sourced Music Foundation Models

它還提供兩個特別模式:一種適合當作短視訊背景音的快速生成,另一種則可以在全曲長度(最長可達六分鐘)上維持結構連貫性與風格多樣性,並允許使用者針對不同段落(如主歌、副歌)輸入自然語言指令,精細調整音樂風格。

Categories: 模型, 開源, 音樂

Ministral 3 小模型家族

Ministral 3 是 Mistral AI 推出的模型系列,這是一系列參數高效的小型語言模型,專為計算和記憶體受限的應用而設計,提供三種模型規模:3B、8B 和 14B 參數。對於每種模型規模,我們都發布了三個變體:用於通用用途的預訓練基礎模型、指令微調模型以及用於解決複雜問題的推理模型。此外,我們還介紹了透過級聯蒸餾(Cascade Distillation)來產生 Ministral 3 模型的方法,這是一種迭代剪枝和持續訓練的蒸餾技術。每個模型都具備影像(OCR)理解功能,所有內容均遵循 Apache 2.0 授權。

Categories: 模型, 開源

MiniMax-M2.1 專為程式碼生成的 SOTA 大型語言模型

MiniMax-M2.1 是 MiniMax 團隊專為程式碼生成、工具呼叫、指令追蹤與長跨度規劃打造的 SOTA 大型語言模型,已全量釋出並以 Modified‑MIT 授權開源。模型重點在於提升多語言程式開發的穩定性與效率,讓開發者可以直接拿來建構自動化的軟體開發流水線或多步驟辦公室工作流程。

在各類公開基準測試中,MiniMax-M2.1 在 SWE‑bench Verified、Multi‑SWE‑bench、VIBE(全端應用開發)等指標上,顯著超越前代 M2,並與 Claude Sonnet 4.5、Claude Opus 4.5 相較不相上下,甚至在 VIBE‑Web、VIBE‑Android 等子指標上取得更佳分數,顯示出完整的全端開發能力。

模型支援多種主流推理引擎,包括 SGLang、vLLM、Transformers 以及其他推理服務,並提供 fp8/int8 量化以減少算力需求。實務上,建議使用四張 A100 80 GB 或相當算力的 GPU 來跑原始模型,若需要更輕量化可選擇量化版本。

Categories: 模型, 編程, 開源

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型,能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻,使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1,您可以在那裡試用富有表現力的演講和故事演示。想像一下,只需一個簡單的提示,您就可以創作一個「選擇你自己的冒險」故事,或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧!

微軟從巨型模型到輕量級智慧,創新雙管齊下。正積極推動其基礎模型(foundation models)的創新,並為此推出了兩款重要的內部開發模型:超大型的 MAI-1,以及輕巧高效的 Phi-3 系列模型,展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 香港中文大學, Mac, Win, 模型, 聲效, 語音, 開源


Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 多模態模型, 影像模型, 影像處理, 教學, 模型, 模型訓練, 視頻模型, 開源

Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模,首先是其最強大的版本:Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型,其中擁有 35B 個有效參數,原生支援 256K 個 token 的上下文長度,並透過外推方法支援 1M 個 token 的上下文長度,在編碼和代理任務中均創下了新的最高紀錄,與 Claude Sonnet 4 相當。

除此,Qwen 開源了一款用於代理程式編碼的命令列工具:Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來,並經過了調整,添加了自訂提示符和函數呼叫協議,從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。

Categories: 模型, 編程, 開源

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型, 開源

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術,以面部動作同步且畫面吸睛的能力,已經有很顯著的進步。然而,現有的方法大多專注於單人動畫,難以處理多路音訊輸入,也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰,提出了一項新任務:多人對話影片生成,並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說,在處理音訊輸入時,我們研究了多種方案,並提出了一種**標籤旋轉位置嵌入(L-RoPE)**的方法,來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 香港科技大學, 影像模型, 數字人, 模型, 聲效, 視頻模型, 開源

Page 2 of 9
1 2 3 4 9