
EvalVerse 是一個用來評估電影感生成影片的項目,重點不只看結果是否跟提示詞相符,亦會檢查畫面美感、演出、鏡頭語言和聲畫配合。對近年愈來愈多生成影片項目來說,它補上了「生成得對」與「生成得好」之間的落差。
EvalVerse 會先按電影製作流程理解評分架構,再用提示詞、參考圖或參考影片建立測試組合,之後配合人工標註與機器評估比較結果。論文把指標拆成前期、拍攝、後期三個階段,覆蓋 7 個面向、18 個主維度、45 個子維度和 196 條判準。
• 評分更細:不只看是否跟題,亦會看構圖、鏡頭大小、節奏、表演與聲音設計。
• 覆蓋更廣:支援文字生成影片、參考生成影片、多鏡頭影片及帶聲音影片。
• 可信度更高:加入大規模人工標註,再用專家判斷校準 VLM,縮窄機器評分與人眼感受差距。
• 用途更實際:除了排名,亦能提供診斷訊號,方便後續調整模型、獎勵模型或評估代理。
這項目特別適合做生成影片模型、影片工作流程工具或品質評測的人參考;如果你想比較不同系統,它也比單純看排行榜更有資訊量。論文重點在評估方法和資料整理,未見大量公開的生成表現數字,所以較適合作為評測基建,而不是單一分數工具。
EvalVerse 主要使用兩類模型:生成影片基礎模型,以及 Vision-Language Models(VLMs)。後者在這個項目中負責吸收專家評分經驗,作為機器評估的核心。