EvalVerse 評估電影畫面美感、演出、鏡頭語言評測

EvalVerse 是一個用來評估電影感生成影片的項目，重點不只看結果是否跟提示詞相符，亦會檢查畫面美感、演出、鏡頭語言和聲畫配合。對近年愈來愈多生成影片項目來說，它補上了「生成得對」與「生成得好」之間的落差。

EvalVerse 會先按電影製作流程理解評分架構，再用提示詞、參考圖或參考影片建立測試組合，之後配合人工標註與機器評估比較結果。論文把指標拆成前期、拍攝、後期三個階段，覆蓋 7 個面向、18 個主維度、45 個子維度和 196 條判準。

• 評分更細：不只看是否跟題，亦會看構圖、鏡頭大小、節奏、表演與聲音設計。
• 覆蓋更廣：支援文字生成影片、參考生成影片、多鏡頭影片及帶聲音影片。
• 可信度更高：加入大規模人工標註，再用專家判斷校準 VLM，縮窄機器評分與人眼感受差距。
• 用途更實際：除了排名，亦能提供診斷訊號，方便後續調整模型、獎勵模型或評估代理。

這項目特別適合做生成影片模型、影片工作流程工具或品質評測的人參考；如果你想比較不同系統，它也比單純看排行榜更有資訊量。論文重點在評估方法和資料整理，未見大量公開的生成表現數字，所以較適合作為評測基建，而不是單一分數工具。

EvalVerse 主要使用兩類模型：生成影片基礎模型，以及 Vision-Language Models（VLMs）。後者在這個項目中負責吸收專家評分經驗，作為機器評估的核心。

Paper： https://arxiv.org/pdf/2605.23271