WorldKV 點樣用較少記憶保留影片世界記憶

Input image: a yellow duckling swimming on a sunlit pond with water lilies

WorldKV 是一個針對自回歸影片世界模型的記憶管理項目，重點是用更少 KV cache 成本，保留模型對早前畫面與視角的長期記憶。頁面指出，它屬於免訓練框架，意思是不用重新訓練模型，就可以直接加到既有流程之中。

這個項目要處理的核心問題，是完整保留 KV cache 雖然有助模型記住之前見過的場景，但會很快吃光 GPU 記憶體，注意力計算亦會愈來愈慢。WorldKV 的做法是只在需要重訪某個視角或區域時，取回最相關的歷史片段，而不是永遠把全部內容放在作用中的視窗內。

它的設計有兩個關鍵部分：World Retrieval 會把被移出的 KV 片段按鏡頭或動作狀態建立索引，之後在合適時機取回最相關的 top-k 片段，而且不需要重新編碼；World Compression 則以每段首幀作錨點，利用 key-key cosine similarity 移除過於相似的 token，保留較能代表新區域或時間變化的資訊。

重點可留意：
– 屬於免訓練方法，較易接入現有模型流程
– 以檢索方式保留重訪所需記憶，而非硬性保存全部內容
– 以壓縮方式減少每段儲存量，頁面稱可減半
– 在 Matrix-Game 2.0 與 LingBot-World-Fast 上，吞吐量約提升至 2 倍，同時 KV cache 的 VRAM/RAM 佔用接近減半
– 頁面指記憶保真度可達到，部分情況甚至超過 Full KV

對想處理長影片生成、互動世界模擬，或需要模型記住先前視角與場景的人來說，這個項目特別值得留意。從頁面資訊看，它最適合受限於 GPU 記憶體、又希望維持即時或接近即時推理速度的情境；目前展示內容以項目頁與論文摘要為主，更細緻的限制與穩定性仍要留待論文與程式碼進一步確認。

*未有清楚列出完整基礎模型名稱。

項目： https://cvlab-kaist.github.io/WorldKV/