WorldReasonBench：AI 識唔識用影片推演真實世界？

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準，重點唔係畫面是否逼真，而係模型能否根據起始狀態同事件，合理推演之後個世界會點變。簡單講，即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例，覆蓋 4 個推理面向同 22 個細分類，並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對，令評分唔只靠單一數字，而係更貼近人點樣判斷一段影片合唔合理。

實際使用上，研究團隊或開發者可以用佢去壓力測試自家模型：先生成影片，再由視覺語言模型回答片中問題，之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR，同時考慮答對程度同動態推理質素，另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測，呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說，它關心物理、社會、邏輯同資訊層面有冇前後一致，呢點對真正需要可靠推演嘅應用特別重要。

如果你係做 AI 影片研究、模型選型，或者想知道一個生成器係咪只會「整靚片」，呢個基準幾值得留意。對一般用家嚟講，它亦提供一個更貼地嘅角度：一段 AI 影片可信唔可信，未必只靠觀感，而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench