Artifact-Bench：幫你看穿 AI 影片破綻

近年 AI 生成影片愈來愈像真，但「似真」不等於毫無破綻。Artifact-Bench 這個項目，重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡，而不只是大概明白畫面講甚麼。

它把測試分成三類：分辨真影片與 AI 影片、比較兩段影片哪段更真實，以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻，因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時，先要準備對應的影片資料集，再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程，並支援選擇指定任務、控制輸出長度，以及用多張 GPU 分工推理，對需要批量測試模型的人較方便。

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見，現成流程主要圍繞 Qwen3-VL；相關模型範疇則可延伸到多模態大語言模型，例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」，還是真的能講出哪裡假，這個項目有相當清晰的測試價值。

GitHub： https://github.com/FrankYang-17/Artifact-Bench