多模態模型

ActiveVision 點出視覺推理真空帶

2026 年 7 月 26 日

ActiveVision — An Exam for Active Observers. Vision is a loop, not a glance.

不少視覺題目唔係靠一眼辨認，而係要沿住線追、逐區域數、一步步核對先答得到；ActiveVision 正正針對呢種落差而來。作為一個 benchmark，它集中測試 iterative visual reasoning，處理的是模型看得到畫面，但未必能持續整理觀察過程的問題。

現有多模態模型常見做法是對單張圖作一次性判讀，再配合 chain-of-thought 直接作答；作者認為這種 single-glance 範式，對需要反覆掃描、追蹤順序與維持中間狀態的題型特別吃力。ActiveVision 因此設計了 17 個任務，並用 deterministic program 生成場景，再以 photorealistic 方式重繪，令畫面自然之餘仍保留可驗證結構。

數字相當直接：人類表現為 96.1%，前沿模型在官方無工具評測下最高約 10.6%，差距接近 9 倍。網站亦列出 agent 版本的 tool-use ablation，像 Claude Code 與 Codex 接入工具後，分數明顯高過純 chain-of-thought，表示問題未必只是「看不懂圖」，而是缺少可逐步外化與操作的解題流程。

收錄 17 個任務，重點放在 distributed scanning 與 sequential traversal 一類逐步觀察題
官方評測涵蓋 Claude、GPT、Gemini，亦提供 agent ablation 腳本
數據集可經 Hugging Face 下載，評測程式以 Python 為主
同一靜態圖片也能迫使模型做多步推理，唔靠影片輸入撐起難度

整個 GitHub 項目比較像研究與評測基建，而唔係即用型產品：你需要先下載數據集、配置對應供應商 API，然後用 repo 內的 eval 腳本跑結果。對做多模態模型評測、Agentic 工作流、或者想驗證 Computer-use agents、CUAs 式外部工具協作價值的團隊，它提供了一個很尖銳的檢查點：模型是否真的會「觀察」，還是只會對影像作高階猜測。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, API, Python, 多模態模型, Anthropic, Dataset 數據集

Trace 用可驗證資料重做視覺推理訓練

2026 年 7 月 26 日

很多視覺推理資料集都只交付圖片同答案，模型答啱咗，未必代表推理過程真係站得住腳。Trace把重點放在可驗證 post-training：它屬於一個資料集兼生成環境，針對的問題是怎樣穩定產生 grounded visual-reasoning 任務，並且讓答案、標註與驗證流程互相對得上。

它採用一條很清晰的生成路線：domain → scene grammar → task program。現有做法常見是先有人手整理題目，或者由圖像與文字鬆散配對，再用最終答案做監督；Trace則用 deterministic seed 先建立 semantic scene state，再由 task program 從同一個狀態推導 typed answer、verifier state，最後才渲染圖片與提示。這種 shared-state 設計的分別，在於題目不是「生成完再補標註」，而是從源頭就把圖像、問題、答案同 execution trace 綁定。

對研究團隊來說，這個取向很有吸引力，因為它同時照顧訓練、檢查同重播。每個例子除了 image、prompt、typed answer，還有 image-space annotation、verifier metadata 同 execution trace；對想做 RLVR、後訓練驗證，或者想分析模型到底錯在觀察、計算還是規則理解的人，資料密度比一般 benchmark 高得多。

收錄 11 個 visual domains、277 個 scene grammars、1,000 個任務
已公開 66,000 個 generated examples，亦提供 Hugging Face dataset 與模型檢查點
驗證不只看最終答案，還保留 verifier state 與 replayable execution trace
以 Qwen2.5-VL-3B、Qwen2.5-VL-7B 做 post-training，兩個尺度都有明顯提升

數字上，它在 2,000 個未見過、但由同一批 task programs 生成的新例子上，將 Qwen2.5-VL-3B 由 24.45 提升到 41.05，Qwen2.5-VL-7B 由 34.25 提升到 51.55。這些結果首先說明 Trace對同分佈泛化有幫助；首頁亦提到用 64,000 個 Trace instances 訓練後，對 24 個外部 benchmarks 的 macro-average 也有改善，但摘要資訊未列完整分項，解讀時仍要看原始報告。

Trace最適合被理解為一個用來建構可核對視覺推理訓練資料的基礎項目，而不只是另一個出題庫。它的取捨也很明確：換來高度可驗證與可重播，代價是任務分佈由 scene grammar 同 task program 明確界定，較適合研究訓練方法、評測設計同模型行為分析，未必等同自然世界的開放式視覺理解。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, DeepSeek, Image, 多模態模型, 模型訓練, Dataset 數據集

Cura 1T 瞄準醫療代理工作流

2026 年 7 月 21 日

醫療場景最難處理嘅，往往唔係單次問答，而係要連續對話、讀文字同影像、再連到 EHR 做操作。Cura 1T 就係朝住呢種 Agentic healthcare 用途打造嘅大型模型，重點不在通用聊天，而在病人諮詢、臨床推理同 FHIR-based record operations 呢三類高風險任務。

同類模型多數以通用能力再加醫療微調去應付需求，Cura 1T 則明顯押注 recursive self-improvement：由 training agent 規劃目標能力、訓練、沿 benchmark trajectories 找失誤，再調整 data mixture，而且每輪都有人類決定 keep-or-revert。呢個取向反映佢想解決嘅不只是知識覆蓋，而係醫療流程中跨回合、跨工具、跨模態嘅穩定度。

現階段最實際係經 OpenAI-compatible API 接入，model id 為 actava/cura-soar；公開資訊未見完整開放權重，較似面向企業試用與系統整合，而唔係本地自行訓練或離線推理。對醫療機構、健康科技團隊，或者要做 EHR、care management、行政自動化項目嘅開發者，呢種交付方式會較直接。

以醫療模型定位，但核心賣點其實係 agentic workflows
支援 text + vision，同時提供 256K context，適合長病歷與多模態判讀
基於 Kimi-K2.6 後訓練而成，並非由零開始訓練
基準測試在 6 個 healthcare benchmark panels 之中領先 5 項，但 MedXpertQA-Multimodal 仍落後 GPT-5.5

表現：HealthBench Hard 36.8、HealthBench Professional 66.2，亦在 AgentClinic 與 MedAgentBench 略勝 Claude Opus 4.8；相對 base model Kimi-K2.6 亦有明顯進步。要留意嘅限制係，分數來自 technical report 指定 protocol，而且 API 仍需排隊申請，現階段更適合做能力評估、流程驗證同企業整合規劃，未算係隨手可用嘅開源醫療模型。

項目主頁 · GitHub · Paper

Categories: Agentic, API, Medical醫學, 多模態模型, 清華大學, Dataset 數據集, Kimi

VIABench 視覺模型如何協助失明應用

2026 年 7 月 17 日

講到視覺模型，很多測試仍然停留在「見到乜、答到乜」；VIABench 把焦點轉去更貼身的助盲情境，直接檢查多模態大型語言模型可否在日常片段中作出提醒、回答環境問題，甚至按目標提供引導。它屬於Dataset 數據集兼評測基準，處理的是視障協助場景長期缺乏貼地測試標準這個問題。

VIABench 不再只量度被動理解，而是把影片 Multimodal Large Language Models 與真實任務綁在一起。資料來自盲人錄製或分享的第一身影片，包含 761 段影片、46.9 小時內容，以及 14,526 筆人工整理標註，圍繞 Proactive Reminder、Visual Question Answering、Vision-Guided Interaction 三類任務，測試模型會否在合適時間講合適內容。

和常見視覺問答基準相比，VIABench 的分野在於它重視「協助能力」多過一般描述能力。這意味模型不單要看懂畫面，還要判斷何時提醒、如何回應環境細節，以及怎樣支援使用者完成目標；取捨是任務更接近真實世界，但評測難度也更高，單靠表面語意對齊未必夠。

核心價值在於測試影片 MLLMs 能否提供可行協助，而非只做畫面解說
任務覆蓋主動提醒、視覺問答、互動引導三種助盲場景
數據來自真實第一身影片，場景代表性比通用影片基準更強

較適合關注無障礙 AI、assistive technology、video MLLMs 評測的研究團隊，也適合想比較不同模型在真實互動場景表現的人。現有資料已足夠理解它作為基準的定位；使用前較合理的做法，是先查閱論文與 Hugging Face 資料集頁面，再確認支援哪些相關模型與評測設定。

GitHub

Categories: 開源, Video, 多模態模型, 視覺模型, 南京大學, Dataset 數據集

UniVR：視覺推理訓練變成可控工作流

2026 年 7 月 17 日

UniVR 係一個能理解我們視覺空間中的思考方式及其在統一視覺推理中的應用，它針對 Emu3.5 unified generative models 的訓練框架，處理的是視覺推理、長程規劃同結果判斷點樣一齊學。它唔係拿來直接做推理展示，而係俾你用自己的資料同獎勵訊號，去微調一個已經懂得處理圖像與文字的底座模型。

SFT（supervised fine-tuning）階段要提供統一格式的樣本：query image、textual instruction、visual reasoning trajectory；RL（reinforcement learning）階段則改成透過 HTTP reward server 送回分數。原始資料沒有提供完整安裝流程，所以目前可確定的只有要把自定義 PyTorch Dataset 接入 UniVR_SFT/train.py，以及把 reward function 換成自己的服務。

和一般只做單次微調的做法相比，UniVR 的取向更偏向「先教格式，再用獎勵修正推理」。它在 RL 端用 GRPO，並配合 HybridEngine 與 Emu3.5 的 vLLM patch，強調 rollout 效率；同時保留 LoRA 同 full-parameter training，適合資源與改動幅度唔同的團隊。

支援多節點 SFT，兼容 LoRA 同 full-parameter training
RL 端基於 verl，同 GRPO 搭配自訂 HybridEngine
Emu3.5 的 vLLM no-CFG parallel inference 可做到約 2 倍 throughput
獎勵設計分成 format reward、global reward，同 step-level 的視覺推理約束
相關模型包括 Emu3.5 同作為評分器的 Qwen3-VL-30B

較容易受惠的情境包括做視覺代理、機械臂/操作規劃、長程任務推理，或者想將現成視覺模型轉成自己工作流的團隊。它的價值在於把「資料格式、推理軌跡、獎勵判斷」串成同一條訓練路線，令視覺任務唔再只靠靜態標註去學。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, Image, Python, 多模態模型, 模型訓練, Dataset 數據集

VideoChat3 一個睇得耐又睇得準的影片模型

2026 年 7 月 17 日

影片理解最麻煩的地方，往往唔係「識唔識睇」，而係要一邊保留動作細節，一邊捱得住長時間片段。VideoChat3 就係朝住呢個矛盾落手：它屬於多模態模型（Multimodal Large Language Model, MLLM），目標係用同一個 4B 模型處理細微動作、長片推理、temporal grounding 同 live streaming 回應。

同類項目好多時只會專注其中一段工作流，例如短片動作辨識，或者長片問答。VideoChat3 的取向係做 generalist video understanding，代價就唔係追求單一場景最極致的規格，而係用 I3D-ViT 同 Adaptive Frame Resolution 平衡 token 成本、時序證據同延遲，令模型唔需要全程用高成本方式讀完整段影片。

重點唔只係睇單格畫面，而係保留跨時間的證據
I3D-ViT 提供 16× spatiotemporal compression，主打效率
Adaptive Frame Resolution 會按需要提高畫面解析度，較適合 streaming 場景
已公開 model weights 同完整訓練數據，但 training code 仍未釋出

部署同測試的理解方式幾直接：現階段較接近研究釋出與模型體驗，適合先經 Hugging Face 取用 models & data，再按示範場景驗證長片問答、時間定位同串流回應表現。README 已列明完整訓練資料包括 Academic2M、LV116K、OL617K，對研究團隊、做 video agent、或者要建構影片檢索與監察流程的團隊最有參考價值。

公開資訊亦交代咗幾個關鍵數字：4B parameters、3M curated instruction samples、2,048 frames 下約 20.4s latency。呢啲數據未必代表所有環境都會有同樣效果，但至少講清楚它想證明的方向：唔靠超大模型，都可以把影片中的時間線索、事件關聯同即時反應放入同一套架構。相關模型與模組則以 VideoChat3、I3D-ViT、Adaptive Frame Resolution 為核心，整體更似一個面向研究與進階應用的開源影片理解項目。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 3D, 多模態模型, 模型, 視覺模型, 南京大學, 框架

Wan Streamer v0.3：讓 AI 學懂「世界不變，只有事件在流動」

2026 年 7 月 17 日

A robot navigates a suburban neighborhood and drives a car through a sequence of events

玩過 AI 影片對話工具的人都會發現一個矛盾：模型可以跟你聊天，但一旦想做動作，畫面就容易卡頓、失憶，甚至換了一張臉。Wan Streamer v0.3 想解決的就是這個問題——它把影片分成兩件事來學，一件是「世界設定」（場景、角色、畫風、聲音這些要長期保持一致的東西），另一件是「事件流」（說話、動作、鏡頭移動、環境變化這些隨時間發生的事）。

這個拆法聽起來抽象，但對使用者來說，最直接的差別就是角色終於可以做自然語言描述的動作了。你打開鏡頭，模型會一邊跟你說話，一邊伸手拿起眼前的物件、轉向聲音來源、或者露出驚訝的表情，而且動作和對嘴的時序是學出來的，不是後製對齊的。延遲仍然維持在約 200 毫秒，解析度 640×368、幀率 25fps，即時互動不會被打斷。

從工作流角度看，這個版本最大的價值是把普通影片變成訓練素材：先建立世界，再沿時間軸學接下來會發生什麼。同一套能力日後可以遷移到漫遊探索、機器人控制等場景，而這次發佈聚焦在即時音視頻對話。

重點摘要：

拆解式學習：將「持續世界」與「事件流」分開建模，避免長對話中場景漂移
自由動作描述：支援用自然語言寫出動作（如拿取物件、轉向、變換姿勢），並與對話同步渲染
即時互動規格：640×368、25fps、約 200ms 模型側延遲，支援全雙工音視頻
普通影片即訓練素材：不需特殊標註，現成影片就能用於學習時間軸上的因果事件
可遷移架構：同一套預訓練能力可延伸至具身導航、漫遊等場景

對於做數位人、虛擬主播、互動敘事或即時陪聊的團隊，這個方向值得留意；對於只是想試試看的個人，現有 demo 已經足夠展示「角色真的在過日子，而不只是在回話」的差異。

項目主頁

Categories: Video, Audio, 多模態模型, 模型訓練, 語音, Robotic, 世界模型, Skill 技能

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

MultiRef-Compass：多模態影片不再各自為政

2026 年 7 月 17 日

同一段生成影片，畫面可能順眼、聲畫卻唔對位；角色外觀接近參考圖，指令跟從又未必準。MultiRef-Compass 抓住呢種常見落差，定位成一個開源評測工具包，處理 multi-reference multimodal video generation 的比較問題，重點唔係逐條片人手睇，而係用可重現的方法把不同模型放到同一把尺上量度。

它的取向相當明確：偏向研究比較，而唔係臨時檢查作品。項目用固定的 CSV 輸入欄位，接收文字、視覺參考、音訊參考同生成影片，再輸出 per_sample.csv、model_summary.csv、ranking.md 同 details.json。這種設計的好處，是團隊可以用同一批樣本反覆測不同模型；代價是流程較講究資料整理，較適合已有實驗管線的人。

跟只看單一分數的做法相比，MultiRef-Compass 把結果拆成四組共 14 個公開指標，包括 Basic Quality、Entity Fidelity、Audio-Video Consistency 同 Instruction Following。它同時混合 classical media-analysis pipelines、learned quality models、speaker embeddings，以及 multimodal language model judges，所以看到的不只是整體高低，仲會知道問題出在 anatomy、reference fidelity、voice timbre similarity，定係 temporal order。

用統一 schema 比較不同影片生成模型，較容易做橫向排名
保留 sample-level diagnosis，同時支援 model-level ranking
支援 text、visual-reference、audio-reference 三種條件一齊評測
著重公開 metric taxonomy，同類研究較易重現結果

現有資訊未見到完整安裝細節，但理解方式已很清楚：先準備符合欄位要求的 CSV manifest，再按指標群組跑評測後端。受益最大的，會是做多模態影片生成、聲畫對齊、角色一致性與指令跟從研究的團隊。相關能力圍繞 Visual Quality、Audio Quality、Entity Fidelity、Speech-Lip Synchronization、Voice Timbre Similarity 等指標展開；它未必幫你直接提升模型質素，卻能先把模型到底差在哪一環講清楚。

GitHub · 模型

Categories: 開源, Video, Audio, Embedding, 多模態模型, 視頻模型, 語音

Kimi K3 把開源大模型推到 3T 級別

2026 年 7 月 17 日

長上下文、程式開發同知識工作往往要分開交畀不同模型處理，Kimi K3嘗試把這幾件事收在同一個開放模型內。它屬於大型多模態模型，重點是處理長流程 coding、長篇資料閱讀與推理之間的切換成本，並提供原生 vision 能力與 1M context。

Kimi K3 的定位，不是單靠參數規模取勝，而是想在開源路線上逼近 frontier intelligence。資料提到它有 2.8T parameters，屬於首個 open 3T-class model，整體表現仍落後於 Claude Fable 5 和 GPT 5.6 Sol，但在自家 evaluation suite 內已持續超過其他被測模型，顯示它在開源陣營有明顯競爭力。

技術上，這個模型建基於 Kimi Delta Attention（KDA）同 Attention Residuals（AttnRes），目的是改善資訊在長序列與深層網絡中的流動方式；同時也擴大了 Mixture of Experts（MoE）sparsity。這種做法反映它要處理的核心矛盾：一邊維持超長 context 與多類任務能力，一邊控制推理與訓練效率。

首個 open 3T-class model，規模達 2.8T parameters
原生支援 vision，並提供 1M context window
目標場景包括 long-horizon coding、knowledge work 同 reasoning
採用 Kimi Delta Attention（KDA）、Attention Residuals（AttnRes）與 Mixture of Experts（MoE）
已在 Kimi.com、Kimi Work、Kimi Code 同 Kimi API 提供使用

對開發者、研究者同需要長文檔工作流的人來說，Kimi K3最有吸引力的地方，在於它把「夠長、夠廣、夠開放」放在同一個項目裡。現階段可確認的限制也很清楚：它未到最強閉源模型的水平，而完整權重、架構與訓練細節仍要等後續 technical report 與正式釋出。

項目主頁

Categories: 開源, Agentic, API, 線上服務, IDE, Mac, Vibe Coding, 多模態模型, 教學, 編程, OpenClaw

Page 3 of 15

« Previous 1 2 3 4 5 … 15 Next »