[技術文章] KAIST 與 Qualcomm 重塑長影片 RAG 評測

Hero image preview

這項研究由 KAISTQualcomm AI Research、Qualcomm Korea 團隊合作提出,聚焦長時間第一身影片中的 Retrieval-augmented generation(RAG)。作者指出,現有 VideoRAG 常沿用「每條查詢只配一種 modality 與一種 temporal granularity」的固定範式,但長影片的證據片段差異很大,單一設定未必適合全部片段;加上不少既有 benchmark 的問題甚至不用看影片也能答中,令最終分數難以反映檢索是否真的做對。

因此,團隊提出 V-RAGBench,把資料整理成 ⟨query, evidence chunk, answer⟩ triplets,明確分開查詢、證據片段與答案。這種設計針對的是過去「只看最終回答正確率」的盲點,讓研究者可以更忠實地分開檢查 retrieval 與 generation,知道系統究竟是靠對的影片片段,還是靠語言偏見、常識或靜態線索作答。

方法上,作者再提出 CARVE。它不是替整條查詢預先選定一種設定,而是讓多個 retriever 以不同 modality 與 granularity 並行工作,再用 chunk-adaptive reranking 為每個 evidence chunk 挑出最合適的 winning configuration。之後,這些片段會連同各自勝出的設定一併送入 generator,形成 interleaved evidence,令檢索階段的片段級決策延續到生成階段。

對想使用這個項目的人來說,切入點很清楚:先用 V-RAGBench 測試自己的 VideoRAG 流程,分開看檢索與生成表現;若系統目前仍採用查詢級單一設定,可再比較 CARVE 這種片段級配置方式。這種思路較適合長影片問答、egocentric video 分析,以及需要從多模態證據中找出正確時間片段的 Agentic 系統。

  • V-RAGBench 以 evidence chunk 為核心,補足舊 benchmark 無法準確檢查檢索對錯的問題
  • CARVE 改為片段級選擇 configuration,不再假設一條查詢只需一套 modality/granularity
  • 作者指出 generator 最後接收的 chunks 會交錯來自多種 configuration,這是 query-level 方法做不到的
  • 論文稱 CARVE 勝過 8 個近期 VideoRAG baselines,顯示片段級決策在長影片檢索更有優勢

整體來看,這項工作不是單純再加一個 VideoRAG 方法,而是先批評舊有評測與建模範式,再用新 benchmark 和新 retrieval framing 一起修正問題。如果你關心的是長影片 RAG 到底應該取回什麼、以及取回後怎樣交給模型使用,這項研究提供了相當清晰的分析框架。

Paper: https://arxiv.org/pdf/2606.13141

Categories: Agentic, Video, AI productions, RAG, 多模態模型, 模型, 新聞, Dataset 數據集, 框架

ClinHallu 拆解醫療 MLLM 幻覺來源

ClinHallu logo

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具,目標不是只計算答對率,而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查,作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識,還是把資訊串連時推錯,因此把問題重組成 stage-wise 診斷。

這個項目的核心做法,是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段,再配合 structured CoT annotations 與 stage-replacement interventions 觀察:如果只修正其中一段,最終答案會否改善。這種設計比單看答案更有分析力,因為它直接對應三種常見錯誤來源:visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances,並提供評測流程。想試這個項目的人,較合理的路線是先選定 datasets 內要跑的資料集,再對照 models.gold cotmodels.model cotmodels.judge 的設定,之後查看 results 內的 model cot 與 eval 輸出;若只想生成替換後的 jsonl,也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析,不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示,Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列,Avg Acc 為 80.1,而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下,而是提醒你:同一模型可能答案不差,但在某個階段的 hallucination rate 仍然偏高,之後微調或加防護時就有更清晰方向。

  • 不是只看答對率:它會拆解模型在哪個推理階段出錯。
  • 方法有辨識度:用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
  • 場景很明確:適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
  • 相關模型完整:結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手,ClinHallu 並不屬於那一類;它更像一把量尺,專門檢查模型推理鏈哪裡開始失真。對研究團隊來說,這比只知道「模型有幻覺」更有用,因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正,連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub: https://github.com/alibaba-damo-academy/ClinHallu

Paper: https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, Dataset 數據集, 清華大學

OmniVideo-100K:增強影音推理訓練數據集

Framework Overview

現時不少影音問答資料建立流程,普遍沿用「video-caption-QA」範式:先把影片切成短片段,再分開寫視覺與音訊描述,最後生成 QA。論文作者認為這種做法容易出現 modality bias、temporal misalignment,同一角色在不同片段亦可能描述不一致,令問題多數只圍繞局部事件,難以考驗長時間跨度的 audio-visual reasoning。

OmniVideo-100K 是一個 Dataset 數據集,目標是為 Multimodal Large Language Models (MLLMs) 提供較完整的影音推理訓練材料。它提出兩個核心機制:Entity-Anchored Video Scripting 先把原始影片整理成結構化 script,包括摘要、主要實體清單,以及帶時間戳的分段音畫描述;Clue-Guided QA Generation 則先抽取跨片段、跨模態線索,再生成較複雜的問答。

這種設計的關鍵,不在於題目數量大,而在於先整理證據鏈再出題。對比舊方法把長文本理解和 QA 合併成一步,OmniVideo-100K 把線索挖掘獨立出來,較有機會產生涉及因果、未來預測與假設推理的題目,而不只是問畫面中「見到乜」。

如果你想測試這個項目,可以先留意 Hugging Face 上的 OmniVideo-100K 與人手驗證的 OmniVideo-Test,看看資料結構是否適合自己的訓練流程;做研究的人則可直接比較模型在外部 benchmark 的變化。論文提到,VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B 經此資料集微調後,在 OmniVideo-Test 最多提升 20.59%,在 Daily-Omni、JointAVBench 也有最多 12.64% 增幅,同時盡量保留在 Video-MME 這類一般影片 benchmark 的能力。

  • 針對舊式「video-caption-QA」流程的三個痛點:modality bias、temporal misalignment、敘事不連貫
  • 用 structured scripts 加 entity list,補回跨片段指代一致性與聲音來源對應
  • 任務覆蓋 10 類,包括 FGP、STD、CU、CP、SA、ESO、SM、CR、FP、HR
  • 適合做影音理解、跨模態推理、指令微調資料研究的人參考
  • 相關模型包括 VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30B

整體來看,這個項目的價值在於它不只新增一批資料,而是重寫影音 QA 資料的組織方法。若你關心的不是單張畫面問答,而是影片內角色、聲音、事件先後與推論之間的連結,OmniVideo-100K 會比一般自動合成資料集更有研究參考價值。

Categories: 開源, Qwen, Video, Audio, 工具, AI productions, 多模態模型, , 模型, 模型訓練, 語音, Dataset 數據集

SpatialWorld:測試多模態代理空間理解的統一基準

SpatialWorld framework overview

SpatialWorld 是一個用來測試 Multimodal Large Language Models(MLLMs)與代理能力的 benchmark。它把 8 個不同的 3D 模擬後端整合成同一套 observation–action 介面,讓模型只靠自然語言指令、第一身 egocentric RGB 畫面,以及統一的文字動作指令完成任務。

如果你想知道一個模型是否真的懂得在環境中探索、轉向、移動、判斷位置與完成多步驟任務,SpatialWorld 提供了較一致的測試方法。它包含 760 個人工標註任務,覆蓋家居、出行、協作與數碼 3D 遊戲等場景,並以 human-validated terminal-state verifiers 判定結果。

讓代理輸入文字動作,例如 Move、Rotate,再由 action parser 轉成各個模擬器原生指令。這種做法的重點,是避免每個 simulator 各有一套流程,令不同模型之間較容易作橫向比較。

  • 統一 8 個 3D backends,減少 simulator-specific pipelines 帶來的比較困難
  • 只提供 vision-only partial observability,更接近代理逐步探索的情況
  • 除了 task success rate(TSR),亦會看 step efficiency(SE),不只比較有沒有完成
  • 已評估 15 個代理,方便對照現有模型表現

從公開結果看,這個項目揭示了目前模型的限制。GPT-5 的平均 TSR 為 17.4%,領先的 open-source 模型 Qwen-3.5 為 14.1%;若看 Physical Overall TSR,GPT-5 只有 14.4%,Qwen-3.5-397B-A17B 為 12.2%。這表示模型即使能理解圖片與文字,也未必能穩定完成需要空間推理與長步驟規劃的任務。

相關模型有 GPT-5、Qwen-3.5、Qwen-3.5-397B-A17B 與 Gemini-3.1-Pro,其中 Gemini-3.1-Pro 在 digital 3D games 達到 39.0% TSR。若你是做 agent、embodied AI、MLLM 評測,或者想比較不同模型在互動式空間任務的差異,SpatialWorld 會是一個很有參考價值的項目。

GitHub: https://github.com/Hongcheng-Gao/SpatialWorld

項目: https://spatial-world.github.io/

Categories: 香港大學, 多模態模型, 北京大學, 框架, 清華大學

Stream3D-VLM 把串流影片變成 3D

Stream3D-VLM Logo

Stream3D-VLM 是一個 online 3D vision-language model,重點是直接從串流影片做即時空間理解,而不是等整段影片或整個場景收集完才分析。對想研究機械人、空間問答,或 3D 場景互動的人來說,這個項目處理的是「模型可否一邊看、一邊建立場景概念,再即時回答問題」這件事。

使用這個項目時,核心資源包括已公開的 Stream3D-VLM-4B 模型、Stream3D-1M Dataset,以及 Stream3D-Bench。資料方面未有直接釋出原始媒體,但有提供標註、GLB 與 RRD 等重建結果;GLB 可放入一般 3D viewer 逐步查看點雲,RRD 則可配合相機姿態與點雲記錄觀察完整重建流程。

Stream3D-VLM 加入 incremental geometry priors,令模型隨時間吸收對齊的 3D 幾何線索。項目亦提出 Visual-Spatial Feature Integration(VSFI)模組,以及 Geometry-Adaptive Voxel Compression(GAVC)模組,前者負責把幾何資訊逐步注入視覺串流,後者用 3D 結構去壓縮 visual tokens,減少長序列推理負擔。

團隊亦建立了可擴展的資料生成流程,整理超過 1M online spatio-temporal 3D QA pairs,並設計涵蓋 29 項任務的基準。項目聲稱在 online 與 offline 的 3D spatial understanding、reasoning、grounding 任務上,表現優於部分 proprietary 與 open-source models;不過文章未在這份資訊中列出完整數字,閱讀結果時仍要配合論文與實驗頁面一起看。

  • 解決痛點:傳統 3D Large Multimodal Models 多數依賴離線處理,這個項目改為面向 streaming video。
  • 主要方法:結合 autoregressive streaming control、VSFI 與 GAVC。
  • 資料與基準:提供 Stream3D-1M Dataset 標註及 Stream3D-Bench,涵蓋 29 項任務。
  • 可視化資源:支援 GLB 與 RRD,方便檢查增量重建與相機軌跡。
  • 相關模型:已公開 Stream3D-VLM-4B,可作為了解整體能力的主要入口。

整體來看,Stream3D-VLM 最適合用來觀察 3D 多模態模型如何由「看完整段再答」走向「邊看邊答」。它未必是一般開發者即裝即用的輕量工具,但對研究串流場景理解、3D 問答、空間推理流程的人,這個項目有相當清晰的方向與實驗野心。

GitHub: https://github.com/hanxunyu/Stream3D-VLM

項目: https://stream3d-vlm.github.io/

Categories: 香港科技大學, 騰訊, NVIDIA, 多模態模型, 模型, 視覺模型, Robotic

VideoKR:為影片理解補上「知識與推理」拼圖

overview

過往的影片問答模型,往往只在畫面表層打轉,碰上需要專業背景的內容就顯得吃力。VideoKR 正是針對這個缺口而設計,被稱為首個專為知識與推理密集型影片理解打造的大規模訓練語料庫,內含 31.5 萬條影片推理範例,橫跨 14.5 萬段以 CC 授權新蒐集的專業領域影片。

整個語料庫採用「人機協作、技能導向」的生成流程,刻意提升題目難度、題材多元性,以及 Chain-of-Thought(CoT)推理過程的品質。換句話說,模型不只是被餵大量影片,還要學會「怎樣一步步推論出答案」,而這個訓練流程分為監督式微調(SFT)與 GRPO 強化學習兩個階段,使用了 LLaMA-Factory 與 verl 兩個框架。

評測方面,項目同時釋出 VideoKR-Eval,由專家人工標註,要求模型真正理解影片內容,不能靠文字提示取巧。完成訓練後釋出的權重包括 VideoKR-Qwen2.5-VL-7B-SFT、VideoKR-Qwen3-VL-8B-SFT,以及對應的 GRPO 版本 VideoKR-Qwen2.5-VL-7B 與 VideoKR-Qwen3-VL-8B,涵蓋兩款主流視覺語言模型,方便不同算力門檻的研究團隊選用。

這個項目適合從事多模態研究、需要領域知識影片分析的團隊,以及關注 SFT-GRPO 訓練管線效果的工程師。對教學與科研機構而言,CC 授權的素材也可作為延伸應用的起點。

重點摘要

  • 首個大規模語料庫:31.5 萬條推理範例、14.5 萬段 CC 授權專業影片。
  • 人機協作生成流程:兼顧難度、多元性與 CoT 推理品質。
  • 專家標註評測集 VideoKR-Eval:避免模型依賴文字捷徑作答。
  • SFT 與 GRPO 雙階段訓練:使用 LLaMA-Factory 與 verl 框架。
  • 開源權重齊備:涵蓋 Qwen2.5-VL-7B 與 Qwen3-VL-8B 兩個規模。

GitHub: https://github.com/Fu-Fu-Fu-Fu/VideoKR

Categories: 開源, 多模態模型, 模型, 模型訓練, 視覺模型

AffordanceVLA:為機械臂加入「先想再做」的能力

AffordanceVLA overview

機械臂聽到「把杯子拿起來」這類指令時,傳統的視覺語言動作模型(Vision-Language-Action Model, VLA)往往要直接把影像和文字翻譯成關節角度,中間欠缺一個「思考」步驟。AffordanceVLA 嘗試在這個鴻溝上架一道橋:先讓模型預測結構化的可供性(affordance),再據此生成動作。

整個框架由三個專家模型組成,按單向的 UAA 注意力串接。Understanding Expert(M_und)以 PaliGemma(SigLIP + Gemma)為骨幹,把畫面、指令與機械臂自身狀態融合成統一的語意表示。Affordance Generation Expert(M_gen)以 Gemma 搭配可學習查詢,把上述表示解碼為三種可供性標記:Which2Act 判斷要操作的物件、Where2Act 標出二維互動熱區、How2Act 則推估三維幾何資訊。最後 Action Expert(M_act)以 flow matching 方式輸出整段動作序列(action chunk)。這個設計呼應了論文「Affordances serve as a perfect bridge」的核心想法。

由於現成機器人數據集中缺乏密集的可供性標註,作者額外提供了一條自動化標註管線,並以三階段漸進式課程訓練 MoT 架構。訓練時須留意 model.chunk_size 與 data.chunk_size 保持一致,否則動作 attention mask 會錯位;Which2Act 的 Flux loss 預設為 MSE,可在 src/models/which2act_decoder.py 頂端切換。

這個項目適合研究 VLA、機器人操作策略,或對可供性表示有興趣的開發者。需要一支能跑 PaliGemma 與 flow matching 的 GPU 環境,並準備好仿真或實機評測流程。論文中的模擬與真機實驗橫跨多種操作場景,顯示加入可供性中間層能提升泛化與精確度,但具體數字仍以官方報告為準。

重點摘要

  • 以 Which2Act、Where2Act、How2Act 三段式可供性作為視覺、語言與動作之間的中間橋樑。
  • 採用 MoT 架構,串接 PaliGemma 為基礎的 Understanding、Gemma 為基礎的 Affordance 與 Action Expert。
  • 配套自動化可供性標註管線,緩解機器人數據標註不足的問題。
  • 訓練採三階段漸進式策略,flow matching 輸出整段動作序列。
  • 模型、訓練與標註腳本皆隨開源項目釋出,歡迎社群延伸。

GitHub: https://github.com/Skywalker-yqz/AffordanceVLA

Categories: 開源, 香港中文大學, 香港科技大學, 多模態模型, 模型, 模型訓練, 北京大學

Skill0.5 如何提升強化學習泛化力

Og image

Skill0.5 是一個面向 Agentic Reinforcement Learning 的研究項目,聚焦處理 out-of-distribution generalization 問題。它指出傳統 skill-based RL 方法常要在 full externalization 與 full internalization 之間二選一,前者會帶來高昂的 context 開銷,後者則容易出現 overfitting 與知識衝突。

這項目把 general skill internalization 與 task-specific skill utilization 一同納入訓練,但用不同策略處理兩種性質不同的技能。系統會用 difficulty-aware router 按任務難度分流:Hard tasks 用 privileged distillation 內化通用技能,Medium tasks 用標準 RL 提升成功率,Easy tasks 則透過 diagnostic probing 懲罰走捷徑的行為,迫使模型忠實運用任務相關技能。

對初步理解這個項目的人來說,可先把它視為一種「按難度分工」的訓練框架,而不是單一模型結構。使用時要留意 context 開銷被視為問題之一,某程度上也反映較重的外部技能依賴可能增加資源壓力,包括 VRAM 與序列處理成本。

  • 解決 rigid choice 問題,避免只靠 externalization 或 internalization
  • 用 difficulty-aware router 把任務分成 Hard、Medium、Easy 三層
  • 分別結合 privileged distillation、標準 RL 與 diagnostic probing
  • 在 ALFWorld 與 WebShop 中,據摘要所述優於 memory-based 與 skill-based RL baselines

這類項目較適合研究智能代理、任務規劃與泛化能力的人參考,尤其是想改善模型在陌生情境下穩定性的團隊。

訓練和實現時使用 Qwen2.5-7B-Instruct 作為基礎模型。策略最佳化方面採用 GRPO 作為骨幹網絡,組別大小 G = 8,學習率為 1 × 10⁻⁶。訓練在 4 個 H800 GPU 上進行,每次迭代的批次大小為 16 個任務,最大互動範圍設定為 30 步。任務特定技能透過 Qwen3-Embedding-0.6B 取得。

GitHub: https://github.com/JasonZhujp/Skill0_5

Categories: 開源, 多模態模型, 影像模型, 影像處理

LaRA 用層級表示找出 RL 訓練污染

Hero image preview

這篇論文介紹 LaRA(Layer-wise Representation Analysis),目的是找出 Reinforcement learning(RL)post-training 階段的資料污染問題。所謂污染,是指評估題目或基準資料混入訓練資料,令 Large Language Models(LLMs)看似表現很好,但其實可能只是記住答案,影響泛化能力與評估可信度。

作者指出,現有方法多數只看輸出層面的訊號,例如 likelihood、entropy 或生成行為差異,但這類方法對 RL 訓練後的模型未必穩定。原因是 RL 重點在整條 reasoning trajectory 的 reward,而不是逐個 token 的機率,因此只靠輸出分佈,容易受 miscalibration 影響,未必能準確反映模型是否記住了評測資料。

LaRA 改為分析模型各層的內部表示,觀察受控擾動前後的幾何變化。論文提出三個互補指標:perturbation sensitivity、directional collapse、local representation rigidity,用來量度污染樣本在不同 layer 的異常反應;作者發現,受污染資料會在多層表示中逐步出現更高敏感度、更強方向收縮,以及更高局部剛性。

使用這個項目時,重點不是增加推理速度,而是作為檢測流程,協助研究人員審視 RL 訓練後模型的可信度。文中也提出一套偵測 protocol,把不同 layer 與不同指標的偏差整合起來;在 RL-trained reasoning models 的實驗中,這套方法表現優於現有 output-level baseline。

  • 解決 RL post-training 資料污染難以辨識的問題
  • 以 representation-level 訊號取代單看輸出機率
  • 結合三個指標,從多層 layer 分析污染痕跡
  • 適合用於 reasoning 模型評估、訓練審核與研究比較
  • 論文摘要未提供 VRAM 需求,較可能受模型大小、抽取 layer 數目與批次分析設定影響

如果你關心 VRAM 的應用,這篇內容沒有列出明確顯示卡記憶體需求,也沒有提供部署規格。不過按方法性質推測,LaRA 需要讀取多個 layer 的 hidden representations,使用時 VRAM 主要會花在模型載入、儲存中間層表示,以及對多個擾動版本做批次分析;模型越大、分析層數越多,VRAM 需求通常越高。

Paper: https://arxiv.org/pdf/2605.29888

Categories: 開源, 多模態模型, 影像模型, 影像處理

NAVA 點樣做好聲畫同步生成

NAVA

NAVA 是一個主打音訊與影片同步生成的項目,目標不是先整好畫面再補聲,而是由一開始就把兩者放在同一個生成流程內處理。對非技術讀者來說,可以把它理解成一個較重視「畫面發生什麼,聲音就跟住發生什麼」的模型,因此打鬥、說話、環境聲這類時間配合會更自然。

這個項目的核心做法,是先在獨立空間建立 audio-video alignment,再用文字或其他 context 去引導生成,並採用 Align-then-Fuse MMDiT 架構。另一個亮點是 Timbre-in-Context Conditioning,能把參考 WAV 的音色對應到指定語音片段,適合多角色對白、指定聲線或旁白控制。

NAVA 有 6.3B 參數,可在 8 張 GPUs 配合 Ulysses sequence parallelism 下約 1 分鐘生成 720p 影片,這代表它主要面向高階 GPU 環境;VRAM 的作用是存放模型權重、推理中的中間特徵、音訊與影片 token,以及較高解像度生成所需的緩衝空間,VRAM 越充足,越有機會支援更高畫質、較長內容或較穩定的批次推理。

  • 支援 native stereo audio,畫面、場景聲與語音一併生成
  • 可用文字控制鏡頭構圖、運鏡與節奏
  • 支援 multi-timbre voice control,適合多角色配音場景
  • 同一 checkpoint 可輸出橫向、直向與正方形比例
  • 英文 TTS 表現較強,其他語言支援看來仍較有限

它在 Verse-Bench、Seed-TTS 及用戶研究中,於影片質素、聲畫同步和參考音色可控性有明顯優勢,音訊質素亦具競爭力。若你關注開放式 audio-video generation、TTS、虛擬角色影片、短片內容製作,或者想研究 6.3B 級別模型如何平衡同步效果與運算需求,NAVA 是一個很值得細看的項目。

GitHub: https://github.com/ernie-research/NAVA

Categories: 開源, 多模態模型, 影像模型, 影像處理

Page 2 of 6
1 2 3 4 6