OmniCap-IF：讓影片描述模型聽懂你的格式要求

現時不少多模態模型可以為影片自動生成字幕或描述，但當用戶要求「用 Markdown 表格整理時間點」或「特別提及背景音樂」等具體指示時，模型往往只輸出一般化文字。OmniCap-IF 正正針對這個落差，研究模型能否在理解畫面與聲音之餘，亦嚴格跟隨用戶指定的結構、風格、時間、視覺、音訊與音視覺等多重限制。

這個項目由南京大學 NJU-LINK 團隊與快手 Kling 團隊合作推出，包含三部分：用作評估的 OmniCap-IF Benchmark、用作訓練的 OmniCap-IF-54K 數據集，以及以此微調出來的 OmniCaptioner-IF 模型系列。基準涵蓋 480 段影片共 1,920 條樣本，橫跨 50 種約束類型，平均片長約 54.6 秒，並以清單式評分機制同時檢查格式與內容。

對研發人員而言，最直接的做法是透過 Hugging Face 下載預訓練模型（提供 3B 與 7B 兩個版本），再以 Python 載入影片並輸入帶有格式要求的指令。模型會根據指令產生相應的影片描述，研究者便可與基準結果比較，判斷自家系統在指令遵從度上的強弱。

這個項目的創新之處在於雙軌評分機制：一方面驗證輸出是否符合結構規定（例如段落、表格、時間戳），另一方面把內容拆成視覺、音訊與音視覺三個維度逐一核對，並加入時間定位。這種「分項打分」比單純的整體相似度更能診斷模型失誤的位置。配套的 54K 訓練集亦採用了「內容與格式分離生成」的策略，令模型在複雜格式下仍能保持內容準確。

適合從事影片理解、字幕生成、內容審核或需要可控 AI 輸出的團隊。

重點摘要：

OmniCap-IF Benchmark：1,920 條樣本、50 種約束的影片描述指令遵從評估基準。
OmniCap-IF-54K：54,000 條影片—指令—回應三元組的訓練數據集。
OmniCaptioner-IF：3B 與 7B 兩款模型，可從 Hugging Face 直接下載。
雙軌評分機制：分開檢查結構格式與視覺／音訊／音視覺內容。
時間定位能力：把時間戳準確度納入評分，支援需要時序分析的應用。

GitHub： https://github.com/NJU-LINK/omnicap-if

項目： https://nju-link.github.io/OmniCap-IF/