MoC 突破時空限制:AI 長影片生成

AI 不僅能創造出栩栩如生的圖片,還能生成數分鐘、甚至更長,且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而,一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術,正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展,為長影片生成帶來了革命性的解決方案,有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰,在於模型必須能夠在漫長的時間序列中,保持並檢索關鍵事件,同時避免資訊崩潰或內容漂移。現有的擴散變換器(diffusion transformers)雖然在短影片生成方面表現出色,但其自注意力(self-attention)機制的二次方成本,使得處理長序列時,記憶體和計算資源的消耗變得難以承受,導致效率低下且難以優化。這意味著,隨著影片時長的增加,AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定,導致影片內容的連貫性、一致性大大降低。

「上下文混合」(MoC):AI 的長期記憶引擎

為了應對這個「長期上下文記憶」問題,研究人員將長上下文影片生成重新定義為一種「內部資訊檢索任務」。他們提出了一種簡潔、可學習的稀疏注意力路由模組——「上下文混合」(Mixture of Contexts, MoC)。MoC 的核心思想是作為一個高效的「長期記憶檢索引擎」。

在 MoC 架構中,每個查詢(query)都能動態地選擇少數具有資訊量的區塊(informative chunks),並輔以必要的錨點(mandatory anchors),例如影片的標題(caption)和局部視窗(local windows)。這種因果路由(causal routing)機制,能夠有效防止循環閉合,確保資訊流動的合理性。

MoC 帶來的效率與一致性突破

隨著資料的擴展和路由的逐步稀疏化,MoC 模型會將計算資源分配給最重要的歷史內容。這項技術能夠在數分鐘的內容中,有效保留人物身份、動作和場景的一致性。

效率的提升是 MoC 的一個重要副產品。透過這種檢索機制,模型實現了近乎線性的擴展能力。這不僅使實務上的訓練和合成成為可能,更重要的是,它促成了在數分鐘級別的長影片中,記憶和內容一致性的出現。

展望未來:更真實、更宏大的 AI 影片創作

「上下文混合」(MoC) 技術的誕生,標誌著 AI 在長影片生成領域邁出了關鍵性的一步。它為開發能夠創作出更長、更具敘事性、且內容高度連貫的AI影片提供了堅實的基礎。未來,我們可以期待 AI 不再僅限於生成短暫的片段,而是能夠講述複雜的故事,創造出接近人類想像的宏大視覺作品。這項技術的潛力,無疑將對電影製作、內容創作乃至虛擬實境等領域產生深遠的影響。

Categories: 字節跳動, 香港中文大學, 開源, 影像模型