Echo-Memory 讓世界模型認得回家的路

當 AI 影片模型控制鏡頭離開某個場景再折返時，常常會「認錯地方」——同一條街、同一件家具，回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的，正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制：只更換「記憶模組」，其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片（action-to-video）模型作為共用底座，把記憶方式分成四大類——Context（原始幀滑窗）、Compression（壓縮後的學習 token）、Spatial（顯式空間讀寫狀態）、State-Space（區塊式 SSM 遞迴更新）。所有變體都掛在相同的寫入—讀取介面上，差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定，讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言，項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory，並附上 SpatialVID 子集的動態訓練池設定文件，開發者指南亦提供中英雙語流程。評測方面，項目提供 GT replay、in-domain 180 度折返，以及 open-domain 編輯式回訪三種探測腳本，涵蓋靜態回放和場景重訪兩個維度。

要注意的是，目前的權重僅限 Wan 2.1 1.3B（epoch-0），Wan 2.2 以及 5B／14B 多尺度底座、以及超越靜態重訪的動態評測，仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成，或是想在 LoRA／記憶外掛（memory adapter）方向動手的人，這個項目提供了一個難得的可重現基準；對一般讀者來說，它也示範了當鏡頭「回家」時，AI 為何會迷路、又該怎麼讓它記路。

重點摘要：

統一底座、只換記憶：以 Wan 2.1 1.3B 為共用骨幹，比較 Context、Compression、Spatial、State-Space 四種記憶家族。
可控變因設計：所有模組共享寫入—讀取介面，差異集中在「存什麼、怎麼取回」。
完整可重現資源：公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
三種回訪探測：GT replay、in-domain 180 度折返、open-domain 編輯式回訪，分別檢驗重播與折返記憶。
未來路線：Wan 2.2、5B／14B 多尺度底座與動態評測仍待補齊。

GitHub： https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目： https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/