AdaState 令串流影片生成更自然流動

Motivation figure: attention bias and qualitative comparison of reference strategies

AdaState 是一個用於 Streaming Video Generation 的方法，目的是改善自回歸影片 diffusion 模型過度依賴第一幀的問題。原有做法會把首幀當成固定參考，令後續內容雖然一致，卻容易出現畫面過於靜止、鏡頭難以自然移動、場景變化被壓抑的情況。

項目的核心是用一個會隨內容更新的 adaptive state 取代凍結的 first-frame anchor。這個隱藏狀態會在每個 chunk 與內容一同 denoise，但本身不會直接輸出成畫面，模型改為參考上一個 state 與目前內容，逐步形成會演化的場景錨點。

對一般讀者來說，可以把它理解為：模型不再死跟開頭那一格畫面，而是一路保存一個會成長的「場景記憶」。這樣做有助支援更長的 rollouts，也更容易產生連續 camera motion 和自然的 scene progression，同時不需要額外外接模組。

重點可先留意以下幾點：
– 解決首幀長期主導 attention cache 的限制
– 以 adaptive state 建立可持續更新的隱藏參考
– 採用 relative time 的生成觀念，每一步看到相似的位置結構
– 把 recurrence 引入生成流程，並以 denoising 作為狀態轉移
– 項目頁面表示可提升影片 dynamics、motion 與長時段連貫性

AdaState 的優勢集中在 richer dynamics、longer rollouts 與 coherence 之間的平衡；長片段內容延展、虛擬鏡頭運動的研究。

項目： https://adastate.github.io/