USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

(more…)
Categories: 字節跳動, 開源, 影像模型, 影像處理

MoC 突破時空限制:AI 長影片生成

AI 不僅能創造出栩栩如生的圖片,還能生成數分鐘、甚至更長,且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而,一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術,正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展,為長影片生成帶來了革命性的解決方案,有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰,在於模型必須能夠在漫長的時間序列中,保持並檢索關鍵事件,同時避免資訊崩潰或內容漂移。現有的擴散變換器(diffusion transformers)雖然在短影片生成方面表現出色,但其自注意力(self-attention)機制的二次方成本,使得處理長序列時,記憶體和計算資源的消耗變得難以承受,導致效率低下且難以優化。這意味著,隨著影片時長的增加,AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定,導致影片內容的連貫性、一致性大大降低。

(more…)
Categories: 字節跳動, 香港中文大學, 開源, 影像模型