MemoBench 點樣測世界模型記憶力

Repository image for MemoBench-Team/MemoBench

MemoBench 是一個 benchmark，屬於用來評測 world generation models 的數據集加評測工具組。它主要檢查模型在鏡頭移開再回來之後，能否把同一個物件的外觀、位置與狀態準確重建，而不是只生成一段看似流暢的影片。

現有影片生成或世界模型評測，很多時集中在畫質、動作流暢度，或者短時間一致性；作者認為這類範式未必能測到 visual memory。MemoBench 因此用 V-D-R (Visible → Disappeared → Reappear) 結構重組任務：先見到目標物件，再讓它離開視野，最後要求模型在重返視野時保持物件永久性與幾何一致性，這比單看首尾畫面更接近真正的記憶測試。

資料部分有 360 段片，分成 196 段 synthetic 與 164 段 real-world clips，並提供 V-D-R 邊界、GT camera poses、目標物件文字描述、VQA question banks 等配套。部署思路相當清楚：環境以 Linux、Python 3.11、CUDA GPU 為主，評測流程分成自動指標、Object Revisit Score (ORS)，以及 VQA 三步，輸入格式是逐格 PNG 圖片；camera controllability 會用到 MapAnything，ORS 會用到 SAM-3。

它和同類 benchmark 的差異，不在於片段數量特別大，而在於把「物件消失後再出現」設成核心壓力測試，並同時覆蓋 synthetic 與真實場景。14 項指標亦不是只量畫面好不好看，還會看 temporal consistency、geometric fidelity、object permanence、camera controllability，以及 VQA-based reasoning，取向明顯偏向診斷模型缺口，而不是只做單一排行榜。

適合比較 不同 world generation models 在長時序記憶上的穩定度
測試材料完整，包含 phase 邊界、相機姿態、文字提示與 VQA 題庫
評測角度較細，把低階畫質與高階語意一致性分開量度
部署門檻不算低，需要 Linux、CUDA GPU，亦依賴 MapAnything 與 SAM-3

相關模型方面，官方內容提到已基準測試 8 個模型，但這份儲存庫摘要未列出完整名稱，因此較穩妥的理解是：MemoBench 重點不是提供新模型，而是提供一套可重覆的記憶一致性測試基準。對研究 world modeling、影片生成、camera-controlled generation 的團隊尤其有參考價值，因為它能幫你分辨模型是「畫得靚」，還是真正記得之前見過什麼。

項目主頁 · GitHub · Paper