
AdaState 是一個用於 Streaming Video Generation 的方法,目的是改善自回歸影片 diffusion 模型過度依賴第一幀的問題。原有做法會把首幀當成固定參考,令後續內容雖然一致,卻容易出現畫面過於靜止、鏡頭難以自然移動、場景變化被壓抑的情況。
項目的核心是用一個會隨內容更新的 adaptive state 取代凍結的 first-frame anchor。這個隱藏狀態會在每個 chunk 與內容一同 denoise,但本身不會直接輸出成畫面,模型改為參考上一個 state 與目前內容,逐步形成會演化的場景錨點。
對一般讀者來說,可以把它理解為:模型不再死跟開頭那一格畫面,而是一路保存一個會成長的「場景記憶」。這樣做有助支援更長的 rollouts,也更容易產生連續 camera motion 和自然的 scene progression,同時不需要額外外接模組。
重點可先留意以下幾點:
– 解決首幀長期主導 attention cache 的限制
– 以 adaptive state 建立可持續更新的隱藏參考
– 採用 relative time 的生成觀念,每一步看到相似的位置結構
– 把 recurrence 引入生成流程,並以 denoising 作為狀態轉移
– 項目頁面表示可提升影片 dynamics、motion 與長時段連貫性
AdaState 的優勢集中在 richer dynamics、longer rollouts 與 coherence 之間的平衡;長片段內容延展、虛擬鏡頭運動的研究。