模型 – Infer News

Qwen3-Coder: 超強 Coding 代理

Qwen3-Coder 是我們迄今為止最具代理性的程式碼模型。 Qwen3-Coder 提供多種規模，首先是其最強大的版本：Qwen3-Coder-480B-A35B-Instruct。這是一個擁有 480B 參數的混合專家模型，其中擁有 35B 個有效參數，原生支援 256K 個 token 的上下文長度，並透過外推方法支援 1M 個 token 的上下文長度，在編碼和代理任務中均創下了新的最高紀錄，與 Claude Sonnet 4 相當。

除此，Qwen 開源了一款用於代理程式編碼的命令列工具：Qwen Code。 Qwen Code 是從 Gemini Code 衍生而來，並經過了調整，添加了自訂提示符和函數呼叫協議，從而充分發揮 Qwen3-Coder 在代理程式編碼任務中的強大功能。

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比，這方法在
微粒度基準測試（例如涉及 OCR 相關任務的基準測試）上取得了顯著的提升。

由香港中文大學，香港大學，科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Watch this video on YouTube

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術，以面部動作同步且畫面吸睛的能力，已經有很顯著的進步。然而，現有的方法大多專注於單人動畫，難以處理多路音訊輸入，也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰，提出了一項新任務：多人對話影片生成，並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說，在處理音訊輸入時，我們研究了多種方案，並提出了一種**標籤旋轉位置嵌入（L-RoPE）**的方法，來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型，它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略，可更好地捕捉潛在空間中的音訊特徵，從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力，我們採用了基於 LoRA 的訓練方法。大量實驗表明，OmniAvatar 在臉部和半身視訊生成方面均超越現有模型，能夠提供基於文字的精準控制，用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳，速度感人！我把 OmniAvatar 部署下来了，生成20秒视频竟要4小时？

Watch this video on YouTube

HiDream 文生圖模型

北京的 AI 初創公司 HiDream (智象未來)，剛剛推出了開源 170 億參數的文生圖模型，性能比 FLUX 更為出色。甚至已經在模型排行榜入面升上第二位。而由它生成出來的人物質感、結構、邏輯都非常之唔錯。甚至生成英文文字的準確性同排版能力亦相當之高。除了提供開源版本，亦提供了網上測試同商業版本。

Hi-Dream (the next Flux Killer?): ComfyUI Installation and Use (step-by-step) #ai #flux #hidream

Watch this video on YouTube

HiDream I1 - Now With Native ComfyUI Support!

Watch this video on YouTube

Llama 4 模型系列

Llama 4 Scout 是一個擁有 170 億個活躍參數和 16 個 MOE 的混合專家模型。它被認為是目前同類型最優秀的多模態模型，比前幾代的 Llama 模型更強大。新模型可以用單張 NVIDIA H100 GPU 運作。佢擁有業介領先的 1000 萬 tokens 上下文窗口，並且在廣泛使用的基準測試表現都優勝過 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。它在預訓練和後訓練的過程都用了 256K 的上下文長度。

另一個模型 Maverick 同樣是一個擁有 170 億個活躍參數的模型，但它擁有 128 個 MOE 的混合專家模型。基準測試擊敗了 GPT-4o 和 Gemini 2.0 Flash，而在圖像方面亦表現相當出色，能夠將提示詞同埋相關的視覺概念對齊，將模型的回應鎖定到圖像中的特定區域。兩個模型都有獨特的活躍參數模式，能夠節省一半資源。令開發同應用的價格更低。

Llama-4 First Look & Hands On Testing (Code, Vision, Dialogue)

Watch this video on YouTube

InfiniteYou 克隆自己

InfiniteYou 的獨特之處在於其強大的身份保留技術！透過核心組件 InfuseNet，即使在生成全新場景或是不同風格的相片，也能精準保留相片中的人物特徵。您可以僅以文字描述，就能讓同一人物出現在不同情境、穿著不同的衫，甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制，令創意揮灑的同時，也能精細調整生成結果，直至符合您需要的獨特內容！(ByteDance)

Qwen 2.5 Omni 7b 通義千問多模態模型

Qwen 2.5-Omni，是一個由阿里巴巴團隊開發的端對端多模態模型。它的主要目的是統一處理輸入的文字、圖像、音訊和影片，能同時生成文字和自然語音作為回應。模型在多模態輸入的感知、文字與語音的同步生成以及串流處理的優化等方面都採用了創新技術同埋架構，例如 TMRoPE 時間對齊編碼和 Thinker-Talker 架構。下面的影片詳細示範了 Qwen 在不同的應用場景下的優秀表現。

Qwen2.5-Omni-7B: Voice Chat + Video Chat! Powerful New Opensource end-to-end multimodal model

Watch this video on YouTube

DeepHermes 3 內置推理的 LLM 模型

DeepHermes 3 Preview 是世界上第一批能夠將推理和正常 L L M 模式整合的模型之一。它包括高級的代理能力、更好的角色扮演、推理、能夠保持十分長的上下文連貫性對話。而且只要簡單的系統提示詞，就可以即刻啟動推理能力 Reasoning。

DeepSeek-R1 的強化學習可視化

影片主要講解 DeepSeek R1 模型背後的強化學習演算法，並著重於如何透過人類回饋來訓練獎勵模型。包括如何根據人類對不同回應的偏好來調整獎勵值。接著深入探討 “近端策略優化”（Proximal Policy Optimization）演算法的細節。同時亦探討如何利用 “優勢函數”（Advantage Function）避免偏離原始策略。最後，影片亦解釋了如何運用群體策略優化成高於平均水準的回應，同時亦阻止了低於平均水準的回應，而因此提升了模型的推理能力。

Reinforcement Learning in DeepSeek-R1 | Visually Explained

Watch this video on YouTube

Page 1 of 8

1 2 3 … 8 Next »