iWorld-Bench:互動世界模型評測新基準

iWorld-Bench Overview

iWorld-Bench 是一個面向互動式世界模型的基準測試,目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出,它提供 33 萬段影片資料、4,900 個測試任務,以及 9 項綜合指標,用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上,研究者可把不同類型的世界模型接到其統一的 Action Generation Framework,將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較,以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新,在於把原本互動形式不一致的世界模型拉到同一套評估框架中,並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估,iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力,以及跨場景與全天候適應性。

  • 提供 33 萬段影片與 4,900 個測試任務
  • 以統一動作生成框架比較不同互動世界模型
  • 評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
  • 支援多模態輸入、多視角、多場景與全天候條件
  • 已用於評估 14 個具代表性的世界模型

從應用角度看,會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練,以及需要互動式環境建模的研究。性能與評估方面,網站明確表示其以 9 項指標檢驗 14 個代表性模型,並指出現有方法仍有侷限;但由於論文、程式碼、資料集與排行榜尚未公開,部分細節仍需等待正式發布確認。

模型列表:文中僅提到共評估 14 個代表性世界模型,頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI