AnyGroundBench 點出影片定位模型盲點

Repository image for rinost081/AnyGroundBench

AnyGroundBench 是一個影片 grounding benchmark，也是面向專業領域的資料集與評測基準。它主要用來測試 Vision-Language Models（VLMs）在 animal、industry、sports、surgery、public security 幾類場景中，能否把文字描述準確對應到影片中的時間、位置，以及時空同時發生的事件。

現有做法多數停留在 general、daily-life benchmark 的 zero-shot 測試，重點是看模型有沒有通用理解力；作者認為這種範式無法反映專門場景，因為稀有視覺概念、複雜動作關係與領域術語，通常不會在通用資料裡被充分學到。AnyGroundBench 因而把評測重心轉去 domain adaptation，並加入 dedicated training subsets，令測試不再只問模型「有沒有見過」，而是進一步量度它「能不能適應新領域」。

這個項目的差異，在於它把 temporal、spatial、spatio-temporal annotations 用統一方式整理，並混合 newly captured videos 與 existing datasets。資料來源涵蓋 mouse、american_football、Animal-Kingdom、MECCANO、EgoSurgery 等，覆蓋面比單一領域 benchmark 廣，亦更接近研究團隊、產業分析、醫療影像研究與安全監測場景會遇到的資料分佈。

項目提供 Hugging Face dataset、project page：這不是即插即用應用程式，而是供研究與模型比較的 benchmark。部署重點不是介面安裝，而是按 domain 讀取整理後的資料，然後以 STVG、TVG、SVG 三類任務跑推理與評分；指標分別用 vIoU@0.3、tIoU@0.3、sIoU@0.3。

類型屬於 benchmark / 資料集，目的是測量 VLMs 的 specialized-domain video grounding 能力
舊範式以 zero-shot general benchmark 為主，新設計改為檢查 domain adaptation 與 In-Context Learning（ICL）是否真的有效
評測涵蓋 temporal、spatial、spatio-temporal 三層，較容易看出模型究竟是看錯時間、找錯位置，還是兩邊都失準
已評測 15 個 state-of-the-art VLMs，結果指出現有模型在 specialized domains 的 zero-shot 與 ICL 表現都不穩定

建議模型包括 GPT-4o、GPT-5.1、Gemini-2.5-Flash 等 proprietary VLMs；現有結果顯示，加入 2-shot ICL 雖然在部分 domain 有改善，但整體仍未解決 specialized-domain spatio-temporal reasoning 的缺口。對研究 VLM evaluation、video grounding、視覺模型遷移能力的團隊來說，這個項目最有價值的地方，是它把「通用測試看似可用」與「專業場景仍然失手」之間的差距量化出來。

項目主頁 · GitHub · Paper