模型 – Infer News

MAI-Voice-1 微軟 AI 新紀元

MAI-Voice-1 是一種速度極快的語音生成模型，能夠在單個 GPU 上不到一秒的時間內生成一分鐘的音頻，使其成為當今最高效的語音系統之一。MAI-Voice-1 現已支援我們的 Copilot Daily 和 Podcasts 功能。也在 Copilot Labs 中推出MAI-Voice-1，您可以在那裡試用富有表現力的演講和故事演示。想像一下，只需一個簡單的提示，您就可以創作一個「選擇你自己的冒險」故事，或自訂一個有助於睡眠的引導式冥想。快來嘗試一下吧！

微軟從巨型模型到輕量級智慧，創新雙管齊下。正積極推動其基礎模型（foundation models）的創新，並為此推出了兩款重要的內部開發模型：超大型的 MAI-1，以及輕巧高效的 Phi-3 系列模型，展現了其在AI策略上的深遠佈局。

Categories: 微軟, 模型, 語音

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 香港中文大學, 開源, 聲效, Mac, Win, 模型, 語音

Matrix-3D：可探索的3D 世界

相較於最先進的 360 度影片生成方法，Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時，在視覺品質與相機可控性上，也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預！

Categories: 開源, 香港科技大學, 視頻模型, 3D, Mac, Win, Linux, 模型

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

LongVie – 可控超長影片生成

可控的超長影片生成是一項基礎但具有挑戰性的任務，因為現有的方法雖然對短片段有效，但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 的核心設計可確保時間一致性：
1）統一雜訊初始化策略，在各個片段之間保持一致的生成；
2）全域控制訊號歸一化，可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降，LongVie 採用密集（例如深度圖）和稀疏（例如關鍵點）控制訊號，並輔以一種退化感知訓練策略，可以自適應地平衡模態貢獻以保持視覺品質。

Categories: 開源, 視頻模型, 影像模型, 多模態模型, 模型

Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模，首先是其最強大的版本：Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型，其中擁有 35B 個有效參數，原生支援 256K 個 token 的上下文長度，並透過外推方法支援 1M 個 token 的上下文長度，在編碼和代理任務中均創下了新的最高紀錄，與 Claude Sonnet 4 相當。

除此，Qwen 開源了一款用於代理程式編碼的命令列工具：Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來，並經過了調整，添加了自訂提示符和函數呼叫協議，從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。

Categories: 開源, 編程, 模型

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比，這方法在
微粒度基準測試（例如涉及 OCR 相關任務的基準測試）上取得了顯著的提升。

由香港中文大學，香港大學，科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 開源, 香港科技大學, 視覺模型, 推理引擎, 深度學習, 模型

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 香港科技大學, 開源, 數字人, 視頻模型, 聲效, 影像模型, 模型

OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型，它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略，可更好地捕捉潛在空間中的音訊特徵，從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力，我們採用了基於 LoRA 的訓練方法。大量實驗表明，OmniAvatar 在臉部和半身視訊生成方面均超越現有模型，能夠提供基於文字的精準控制，用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳，速度感人！我把 OmniAvatar 部署下来了，生成20秒视频竟要4小时？

Watch this video on YouTube

Categories: 開源, 數字人, 模型

HiDream 文生圖模型

北京的 AI 初創公司 HiDream (智象未來)，剛剛推出了開源 170 億參數的文生圖模型，性能比 FLUX 更為出色。甚至已經在模型排行榜入面升上第二位。而由它生成出來的人物質感、結構、邏輯都非常之唔錯。甚至生成英文文字的準確性同排版能力亦相當之高。除了提供開源版本，亦提供了網上測試同商業版本。

Hi-Dream (the next Flux Killer?): ComfyUI Installation and Use (step-by-step) #ai #flux #hidream

Watch this video on YouTube

HiDream I1 - Now With Native ComfyUI Support!

Watch this video on YouTube

Categories: 開源, 影像模型, 模型

Page 1 of 8

1 2 3 … 8 Next »