iWorld-Bench：互動世界模型評測新基準

iWorld-Bench 是一個面向互動式世界模型的基準測試，目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出，它提供 33 萬段影片資料、4,900 個測試任務，以及 9 項綜合指標，用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上，研究者可把不同類型的世界模型接到其統一的 Action Generation Framework，將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較，以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新，在於把原本互動形式不一致的世界模型拉到同一套評估框架中，並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估，iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力，以及跨場景與全天候適應性。

從應用角度看，會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練，以及需要互動式環境建模的研究。性能與評估方面，網站明確表示其以 9 項指標檢驗 14 個代表性模型，並指出現有方法仍有侷限；但由於論文、程式碼、資料集與排行榜尚未公開，部分細節仍需等待正式發布確認。

模型列表：文中僅提到共評估 14 個代表性世界模型，頁面內容未列出具體名稱。