JAM – 基於串流的微型歌曲生成器

近年來,擴散模型和流匹配模型徹底改變了文字轉音頻的自動生成。這些模型產生高品質、忠實的音訊輸出的能力日益增強,能夠捕捉語音和聲學事件。然而,在主要涉及音樂和歌曲的創意音訊生成方面,仍有很大改進空間。近期推出的開放式歌詞轉歌曲模型,例如 DiffRhythm、ACE-Step 和 LeVo,已經為娛樂用途的自動歌曲生成樹立了可接受的標準。然而,這些模型缺乏音樂家在工作流程中經常需要的細粒度的詞級控制能力。他們基於流匹配的 JAM 是首次在歌曲生成中引入詞級時間和時長控制,從而實現細致度的人聲控制。為了提高生成的歌曲質量,使其更符合人類的偏好,我們透過直接偏好優化 (Direct Preference Optimization) 實現了美學一致性,該方法使用合成資料集迭代地優化模型,從而無需手動進行資料註釋。此外,他們旨在透過公開評估資料集 JAME 來標準化此類歌詞到歌曲模型的評估。他們證明,JAM 在音樂特定屬性方面的表現優於現有模型。

JAM 建構於一個緊湊的 530M 參數架構之上,並以 16 個 LLaMA 風格的 Transformer 層作為 Diffusion Transformer (DiT) 的主幹,從而實現了音樂家在工作流程中所需的精準人聲控制。與先前的模型不同,JAM 提供詞級和音素級的時序控制,使音樂家能夠指定每個人聲的精確位置,從而提高節奏的靈活性和表現力。


Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模,首先是其最強大的版本:Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型,其中擁有 35B 個有效參數,原生支援 256K 個 token 的上下文長度,並透過外推方法支援 1M 個 token 的上下文長度,在編碼和代理任務中均創下了新的最高紀錄,與 Claude Sonnet 4 相當。

除此,Qwen 開源了一款用於代理程式編碼的命令列工具:Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來,並經過了調整,添加了自訂提示符和函數呼叫協議,從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。



VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

ART:特工強化訓練師

ART 是一個開源強化學習框架,它允許 LLM 從經驗中學習,從而提高代理的可靠性。 ART 提供了符合人體工學的框架,可將 GRPO 整合到任何 Python 應用程式中。

RULER(Relative Universal LLM-Elicited Rewards)透過使用 LLM-as-judge 自動評分代理軌跡,消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務,RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程


Ollama-Web-UI-RAG 離線推理 AI Chatbot

Ollama-Web-UI-RAG 是一個功能豐富的現代化 Web 介面,用於與 Ollama 模型進行互動。這款企業級 Web UI 提供全面的聊天體驗,並具備先進的 RAG(檢索增強生成)功能、基於專案的向量資料庫儲存、強大的會話管理以及豐富的文件處理功能。


VACE First Last + Kontext ComfyUI 教學

這個教程介紹如何使用 Flux Kontext 和 VACE 第一幀/最後一幀在 ComfyUI 中創建基於關鍵幀的高級動畫!Kontext 瞭解完整的圖像上下文,而 VACE 允許在起始幀和完全不同的最終姿勢或角色之間無縫移動。無論您是將一個人變形為另一個人,還是為角色的姿勢製作跨時間的動畫,這都是 AI 視頻生成的一個突破。

VACE First Last + Kontext: KeyFrame Animation When You Only Have One Frame! ComfyUI Tutorial & Demos

Kiro v0.1.0 – Vibe Coder

透過 Kiro,我們徹底革新了開發者與 AI 代理商的合作方式。我們率先推出了規範驅動開發 (spec-driven development),Kiro 將您的需求轉化為結構化的需求、設計和任務,然後由代理商執行。 Kiro 的代理鉤子 (agent hooks) 透過將任務委託給在背景執行的代理程式(例如更新文件、產生單元測試或最佳化程式碼以提高效能)來幫助您擴展工作。我們將 Kiro 視為真正的協作者,目標是讓 Kiro 幫助您交付強大的工程成果,同時助您成為更優秀的工程師。


MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術,以面部動作同步且畫面吸睛的能力,已經有很顯著的進步。然而,現有的方法大多專注於單人動畫,難以處理多路音訊輸入,也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰,提出了一項新任務:多人對話影片生成,並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說,在處理音訊輸入時,我們研究了多種方案,並提出了一種**標籤旋轉位置嵌入(L-RoPE)**的方法,來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。


OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型,它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略,可更好地捕捉潛在空間中的音訊特徵,從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力,我們採用了基於 LoRA 的訓練方法。大量實驗表明,OmniAvatar 在臉部和半身視訊生成方面均超越現有模型,能夠提供基於文字的精準控制,用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳,速度感人!我把 OmniAvatar 部署下来了,生成20秒视频竟要4小时?

Page 1 of 49
1 2 3 49