WorldReasonBench:AI 識唔識用影片推演真實世界?

WorldReasonBench overview

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準,重點唔係畫面是否逼真,而係模型能否根據起始狀態同事件,合理推演之後個世界會點變。簡單講,即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例,覆蓋 4 個推理面向同 22 個細分類,並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對,令評分唔只靠單一數字,而係更貼近人點樣判斷一段影片合唔合理。

實際使用上,研究團隊或開發者可以用佢去壓力測試自家模型:先生成影片,再由視覺語言模型回答片中問題,之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR,同時考慮答對程度同動態推理質素,另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測,呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說,它關心物理、社會、邏輯同資訊層面有冇前後一致,呢點對真正需要可靠推演嘅應用特別重要。

  • 不只評畫面:核心係測試世界演化是否合理
  • 評估方法較完整:結合問答、判分同偏好配對
  • 指標較實用:可同時睇準確度與推理穩定性
  • 適合比較模型:方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型,或者想知道一個生成器係咪只會「整靚片」,呢個基準幾值得留意。對一般用家嚟講,它亦提供一個更貼地嘅角度:一段 AI 影片可信唔可信,未必只靠觀感,而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agent, 影像處理, 框架