CoVEBench 檢查影片編輯模型的真功夫

近年不少影片編輯模型已能根據文字改片,但一遇到多個要求同時出現,例如一邊改主體、一邊保留背景與動作連貫,表現就容易失準。CoVEBench 是一個診斷型 benchmark,專門檢查 compositional instruction-guided video editing 在複雜條件下是否真的做得到。

這項目的判斷方法比一般「整體看起來差不多」更嚴格。它把表現分成指令完成度、畫質與來源保真度三條線來看,並用細緻 checklist 檢查多個編輯點有沒有同時成立;就算模型個別要求做到幾項,只要無法通過 union criterion,分數仍然不高,這種設計能更早看出模型短板。

如果想了解它的內容,較合適的做法是先看示範頁與資料集規模,再對照評估指標。CoVEBench 收錄 416 段來源影片、626 條多重指令、9,990 個細項檢查點,預設會抽取 10 張等距 frame 做 frame-level metrics;AES、VQR、MSM 則只針對 edited videos 計算,方便把「改得夠不夠」與「有沒有改壞其他地方」分開分析。

  • 核心用途是評測 video editing models,不是直接拿來剪片
  • 主要指標包括 Union Accuracy(UAS)、Instruction Following Score(IFS)、Video Realism Score(VRS)、Semantic Consistency(SEM)
  • 設計重點在細粒度 checklist,而非只看單一總分
  • 結果顯示強模型未必兼顧保留原片內容,編輯力度與保真度存在拉扯
  • 項目亦比較了 joint editing 與 stepwise decomposition 的差異,前者表現更好

從公開資訊看,CoVEBench 的價值在於它把失敗原因拆得夠清楚,適合研究團隊、評測人員,以及想比較閉源與開源方案的人參考。相關模型包括 Wan2.7 與 HappyHorse1.0;即使領先系統在複合編輯上較強,UAS 仍未算高,反映這個領域離穩定可靠還有一段距離。

GitHub: https://github.com/NJU-LINK/CoVEBench

項目: https://nju-link.github.io/CoVEBench/

Categories: 開源, 影像處理, 框架