模型 – InferNews

DeepSeek-V4-Flash-0731：輕量化 Agent 模型追上大模型

2026 年 8 月 2 日

要兼顧回應速度、部署成本同 Agentic 能力，DeepSeek-V4-Flash-0731 走的是「較少啟動參數換取高效任務表現」的路線。頁面已清楚寫明它與 DeepSeek-V4-Flash-DSpark 採用相同模型結構，並且附帶 speculative decoding module，所以它不只是一般聊天模型，而是明顯朝工具使用、自動化操作與程式任務優化的版本。

它屬於 DeepSeek-V4-Flash 官方正式發布版，取代 preview 版本，並強調 agentic capabilities 有明顯提升。模型卡同時指出它的模型結構與 DeepSeek-V4-Flash-DSpark 一致，代表推理流程很可能圍繞主模型加速草稿模組來設計。

效能數字是最值得留意的部分。它在 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon-Verified、Agents’ Last Exam、AutomationBench Public 等基準上，普遍明顯高於 DeepSeek-V4-Flash（Preview），部分項目亦超過 DeepSeek-V4-Pro（Preview）。這種進步集中在 terminal 操作、程式庫理解、資安演練、軟件修復同工具鏈任務，反映它更像為 Computer-use agents、程式代理與自動化流程而調整，而不只是追求一般問答分數。

與 DeepSeek-V4-Flash-DSpark 同結構，並附帶 speculative decoding module
官方正式版取代 preview，重點提升 agentic capabilities
多個 Agent／編碼基準明顯優於 DeepSeek-V4-Flash（Preview）
啟動參數較少，但表現可與部分強勢閉源模型接近

部署資訊方面，內容只提供一則討論帖，提到可用兩台 DGX Spark 配合 ghcr.io/bjk110/vllm-spark:unholy-fusion-prod-ready 作最少設定部署；但模型頁面片段未列出上下文長度、GGUF 格式量化檔、mmproj、檔案大小、chat template 注意事項或 v2 檔名變更，因此不能推斷 llama.cpp、Ollama、LM Studio 的支援細節，也不能提供 Q4_K_M 一類量化建議。現有資料較適合把它理解成一個偏向高效率 Agent 任務的 DeepSeek 模型發布，而不是本地 GGUF 部署導向的模型。

模型

Categories: 開源, DeepSeek, Agentic, LLaMa, Ollama, 模型

OpenRSI 實現 AI 可控的自我進化流程

2026 年 8 月 1 日

OpenRSI(Recursive Self-Improvement) 唔係單獨放出一個模型，而係把「AI improving AI」拆成可以執行、量度同重現的整套機械學習工程流程。它屬於開源研究框架加模型組合，核心想處理的是：點樣令 AI 不只寫程式，而係能夠持續改良建立 AI 的方法本身。

OpenRSI 由 OpenMLE 同 Frontis-MA1 連動組成。OpenMLE 負責提供可驗證任務環境、執行回饋、RL 與 evolutionary search；Frontis-MA1 則是一個 post-trained AI4AI model，圍繞 Draft、Improve、Debug、Crossover 四種程式演化操作運作，將訓練到的能力接到長步驟搜尋流程之中。呢種做法的取捨很明顯：它追求可重跑與可評測，所以系統較完整，也比只放模型權重的項目更講究環境與任務設計。

項目較適合研究 Agentic workflow、Machine Learning Engineering、自動化實驗搜尋，或者想分析 execution-grounded learning 點樣落地的團隊。資料已列出 Hugging Face 模型、GGUF 衍生版本、Tasks 同 SFT traces，亦有專屬 project page；但目前公開資訊著重系統構成與結果展示，README 摘錄未完整交代詳細安裝步驟，部署前仍要配合原始倉庫與外部連結自行核對。

OpenMLE 提供 gym、RL、Evo 等完整堆疊，不只是一組 benchmark
Frontis-MA1 把 operator learning 同 long-horizon search 接埋，重點在可執行研究循環
公開內容包括模型、任務資料集、SFT traces，同時照顧訓練與評測重現
提供 GGUF 格式在本地執行推理 的衍生版本，方便不同部署路線

效能方面，項目頁面列出 Frontis-MA1 在 MLE-Bench Lite 由 39.39 提升到 71.21，設定為每個 task 12 小時、單張 RTX 4090 並限制 12 GB VRAM，成績高於 GPT-5.5 + Codex。呢個結果反映它強項在於把執行回饋、後訓練同演化搜尋接成一個閉環；不過現階段它仍主要面向 Machine Learning Engineering，較像一個為 RSI 研究而建的開放實驗平台，而唔係通用型開發工具。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, 模型, Dataset 數據集, 清華大學

OpenRSI 想把 AI 研發流程變成可執行系統

2026 年 8 月 1 日

OpenMLE 提供 gym、RL、Evo 等完整堆疊，不只是一組 benchmark
Frontis-MA1 把 operator learning 同 long-horizon search 接埋，重點在可執行研究循環
公開內容包括模型、任務資料集、SFT traces，同時照顧訓練與評測重現
提供 GGUF 格式在本地執行推理 的衍生版本，方便不同部署路線

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, 模型, Dataset 數據集, 清華大學

RefCaptioner：參考圖綁定對應影片字幕

2026 年 8 月 1 日

RefCaptioner grounds local caption phrases to relevant reference images while rejecting distractors.

做影片描述時，最易出錯唔係句子寫得唔夠長，而係講到某個人、物件或角度時，無法交代文字究竟對應邊張參考圖。RefCaptioner屬於影片字幕生成模型項目，集中處理 multi-reference image-grounded video captioning：一邊保留細節與事實準確度，一邊將局部描述同候選參考圖明確綁定。

RefCaptioner 不只是把所有參考圖塞入輸出，而係會挑選真正有用的圖，將對應片語加上 <Image_N> 標籤，遇到同一主體的不同視角又會做分組，影片根本無出現的內容就直接略過。呢種設計減少錯配同誤導，比起只追求流暢字幕，更著重可核對性。

技術上，RefCaptioner用兩段式 post-training。先以 capability-preserving SFT 學會 grounded caption 格式，同時盡量保留一般 captioning 能力；之後再用 Hierarchical Coverage-Discounted GRPO（HCD-GRPO）同時優化 factual-caption 分支與 multi-reference grounding 分支，並加入 deterministic guards，避免產生格式錯誤或指向不存在圖片的標籤。

提供官方 inference pipeline、SFT 資料準備、HCD-GRPO 訓練同 MRVBench evaluation pipeline
已公開論文與模型權重，亦有 Data Format、Training、Evaluation 文件可跟進
環境分成主環境與 GRPO 專用 veRL/vLLM 環境，代表訓練流程較完整但配置亦較講究
適合做影片理解、資料標註、多鏡頭人物敘述同需要檢查圖文對應的研究團隊

部署與測試：推理、SFT、評估共用主環境，GRPO 另設一套環境，並且要對指定 veRL 版本套用 patch，反映佢較偏研究型工作流，而唔係下載即用的小工具。效能數字在提供的內容未見完整展開，但既然已附 MRVBench evaluation pipeline，至少表示作者有把「字幕寫得對」同「圖文對得準」分開檢驗，較適合重視可解釋輸出的團隊採用。

GitHub · 模型

Categories: 開源, Agentic, Video, Image, 影像模型, 模型, 模型訓練

PALATE 改寫角色扮演 AI 才算演得好

2026 年 8 月 1 日

Overview of the PALATE evaluation pipeline

PALATE（Person-Aligned LLM-Simulated-User Assessment with Tailored Evaluation）的核心做法，是為每位參與者訓練一個專屬的 LoRA 用戶模擬器，讓模擬器和候選角色扮演 AI 自由多輪對話，再從該用戶的歷史數據自動生成一套個人化評分尺。評估拆成三條軌道：針對特定用戶–AI 配對的個人化體驗品質、跨用戶通用的回合級角色扮演品質，以及整個對話過程的連貫性與發展。

角色扮演 RPAs(Role-playing agents ) 的表現好不好，往往不只是模型本身的問題，而是和它對話的那個用戶決定。現有基準普遍要求模型接續一段預寫好的「借用對話」，再用統一的評分尺去評那段回應，結果把模型能力、前置對話品質、個人偏好混在一起打分。中國科技大學與 MetaStone 的團隊指出，這種做法忽略了用戶之間的巨大差異，也無法在真正的多輪場景下做科學評估。

團隊用 16 個候選系統生成 1,600 條獨立軌跡進行評測。個人化軌跡上，Qwen3-Max 領先；GPT-5.4 在通用軌跡表現最佳；Claude Sonnet 4.6 則主導會話軌跡。值得注意的是，沒有任何模型在所有五位用戶上都勝出，反映出個人化評測的必要性。個人化評分尺與人類判斷的一致性達到 0.613，高於通用評分尺。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, 模型, 中國, 框架, Dataset 數據集

DeepSeek-V4-Flash 公測版重點更新

2026 年 7 月 31 日

想用同一個 API 入口處理寫碼、自動化操作同工具調用，2026-07-31 呢次更新最值得留意。DeepSeek-V4-Flash 正式版已經開放 API 公測，調用方式維持不變，只要把模型名稱設為 deepseek-v4-flash，就可以切換到最新版本，對現有接入項目來講改動相對少。

今次更新的重點唔係介面改版，而係 Agent 能力明顯加強。官方列出的 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon verified 同 Automation Bench (Public) 等基準分數，都指向同一件事：V4-Flash 針對 Coding Agent、終端操作、工具使用同全棧開發場景做咗強化，而且公開測試成績已經高過 V4-Pro-Preview。

技術上，DeepSeek-V4-Flash-0731 的模型結構、尺寸都同 DeepSeek-V4-Flash-Preview 一致，更新集中在後訓練，意味住提升主要來自調整模型行為，而唔係換咗一個更大架構。它同時原生支援 Responses API 格式，亦有針對 Codex 做適配，對已經圍繞 API 建立 Agent 工作流的團隊會更易接入。

幾個重點可以直接整理如下：
– deepseek-v4-flash 已可直接使用正式版 API 公測
– API 調用方式不變，現有項目遷移成本較低
– Agent 能力是今次更新核心，涵蓋 coding、terminal 同 tool use
– Responses API 已原生支援，並針對 Codex 做咗適配
– 今次只更新 V4-Flash API，DeepSeek-V4-Pro API 以及 APP/WEB 端模型未有改動

使用上亦要留意邊界。現有資料有提供模型名、相容格式同基準測試結果，但未見更完整的安裝步驟、下載方式或者端到端接入流程；另外，官方亦講明今次並未更新 DeepSeek-V4-Pro API。對想盡快把 Agent 能力接入現有產品的人，V4-Flash 呢次公測比較像一次低改動、偏向工作流升級的更新。

項目主頁

Categories: DeepSeek, Agentic, API, 工具, Vibe Coding, 模型, 編程

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

quote-and-retrieve：用「引文＋檢索」的視覺文件理解

2026 年 7 月 30 日

Repository image for Ryenhails/quote-and-retrieve

視覺語言模型 (VLM) 讀完文件回答問題時，傳統做法會要求它同時輸出 bounding box 標註證據位置；然而開源模型經常「答對但指錯」，這現象被稱為 Attribution Hallucination。這個來自赫爾辛基 Aalto 大學的開源項目主張，問題癥結很大程度是輸出介面本身的限制，而非模型缺乏 grounding 能力。

他們設計了一組控制變量實驗：固定模型、輸入頁面、題目與評分機制，僅改變證據表達方式。座標介面要求模型逐 token 生成框；語言介面則由模型輸出逐字引文，再交由外部 layout parser 與 retriever 找回對應區域（表格與圖片透過 caption 或註解引用）。在四個家族共六款開源 VLM 上，evidence recall 由座標介面下最高 8 分躍升至語言介面的 26 至 47 分，hallucination rate 近乎砍半，而答題品質幾乎不變。

基於這個對比，作者進一步提出 region-label-free GRPO 訓練方法：獎勵訊號只讀取 gold answer 與檢索區域的裁切圖，毋須任何 region-level 標註。8B 模型在這個框架下，strict attributed accuracy 由 22.4 提升至 33.8，等於用更便宜的監督換到明顯的歸因改善。

對於處理長文件、多模態表格或需要可追溯證據鏈的團隊（例如文件審核、研究文獻回顧）來說，這條 quote-and-retrieve 路線既繞開昂貴的人工框標註，也避開模型不擅長的座標生成。想要快速感受差異，只需 clone 項目後執行 python src/score_citevqa.py examples/sample_predictions.jsonl 與同一指令對座標版本跑一次；附帶的範例檔只有四題合成題，卻已重現論文核心發現。

重點摘要：
– 問題重新定位：歸因幻覺多屬輸出介面產物，並非模型能力不足
– 介面切換：座標介面換成引文＋外部 retriever，evidence recall 由 ≤8 升至 26–47
– 訓練替代方案：region-label-free GRPO 用 gold answer＋裁切圖作獎勵，毋須昂貴框標註
– 規模效益：8B 模型 strict attributed accuracy 由 22.4 提升至 33.8
– 快速驗證：附範例 JSONL，無需 GPU 即可重現對比結果

GitHub · Paper

Categories: 開源, Qwen, Clone, Python, 多模態模型, 模型, 視覺模型

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, Dataset 數據集, 清華大學

Google 開源 GNM Head：更完整的人頭 3D 模型

2026 年 7 月 28 日

只做臉部外殼，很多時已經唔夠用；去到動畫、重建同生成式影像控制，眼球、口腔同頭部姿態一旦分離得唔好，效果就會即刻穿崩。google/GNM 目前先開放的 GNM Head，屬於3D parametric statistical human model 項目，焦點是用更完整的人頭幾何表示，處理傳統 3D Morphable Models (3DMMs) 對內部 anatomy 覆蓋不足的問題。

這個項目的取向很鮮明：不只是追求一個可調參的人臉網格，而是把 head、face、neck、eyeballs、teeth、tongue 放進同一個生成式人體測量框架。作者在技術報告指出，現有公開模型多數只覆蓋外部幾何，亦容易受限於低保真掃描資料；GNM 則結合高解析 3D scans 與 anatomy-specific artist-made samples，並加入 ocular 同 intra-oral specialized sub-models，目的就是改善幾何品質同可控性之間的取捨。

現有儲存庫較像一個生態系入口，而唔係即開即用的單一應用程式。README 清楚列出 GNM Head 已提供 NumPy、JAX、PyTorch、TensorFlow 多後端支援，亦有 Linux、macOS、Windows 的 CI；但目前公開資訊以模型與技術報告為主，未見到很完整的產品化操作流程說明，所以較適合研究、角色生成、數碼人、3D 視覺或生成式影像控制團隊按其子目錄文件逐步接入。

補足傳統 3DMM 常見缺口：不只外形，連眼球、牙齒、舌頭都可控
GNM Head 強調 identity、expressions、head pose 的 disentangled control
同時支援 NumPy、JAX、PyTorch、TensorFlow，方便接去不同研究流程
技術報告聲稱在 fitting target 3D face scans 達到 SotA 表現，但具體指標仍要回看原報告

它最吸引人的地方，在於把「可生成、可擬合、可作條件控制」三條路線拉到同一個模型家族內。現階段公開內容仍以 GNM Ecosystem 的起步版本為主，想拿來做完整 production pipeline，仍要自己判斷與現有重建、動畫或生成系統的整合成本；但作為高保真人頭 3DMM 的新基礎，這個項目的研究價值同延展空間都相當高。

GitHub · Paper

Categories: 開源, Google, TensorFlow, 3D, Linux, Mac, Python, 多模態模型, 模型, 語音, Dataset 數據集

Page 1 of 29

1 2 3 … 29 Next »