Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架