OneStory – I2V 生成多鏡組合

現實世界的視訊敘事往往由多個鏡頭組成——這些鏡頭表面上不連續,但在語義上彼此關聯,共同構成完整且連貫的故事。然而,現有的多鏡頭視訊生成(Multi-Shot Video Generation, MSV)方法難以有效捕捉長距離的跨鏡頭語意關聯,主要因其依賴有限的時間窗口或單關鍵影格條件,導致在複雜敘事場景中表現受限。

為此,Meta 提出 OneStory,一種可同時建模全局語義與緊湊上下文的多鏡頭生成方法,實現一致且可擴展的長篇敘事生成。OneStory 將 MSV 問題重新定義為「下一鏡頭生成」任務,基於預訓練的影像轉影片(Image-to-Video, I2V)模型進行強視覺條件化,並透過自回歸方式生成鏡頭序列。

Categories: 影像模型, 影像處理

Light-X 修正相片/影片光渲染及視角

Light-X 是個視訊生成框架,它能夠從視訊中實現可控渲染,並同時控制視角和光照。

Light-X 提出一種解耦設計,將幾何形狀和光照信號解耦:幾何形狀和運動通過沿用戶定義的相機軌跡投影的動態點雲來捕獲,而光照線索則由始終投影到相同幾何形狀的重新光照幀提供。這些明確的、細粒度的線索能夠有效地解耦,並指導高品質的光照。

為了解決缺乏配對的多視角和多光照視頻的問題,Light-X 引入了Light-Syn,這是一種基於退化和逆映射的流程,它利用自然場景下的單目視頻素材合成訓練對。此策略產生了一個涵蓋靜態、動態和 AI 生成場景的資料集,確保了訓練的穩健性。大量實驗表明,Light-X 在聯合相機光照控制方面優於基線方法,並且在文字和背景兩種條件下均優於以往的視訊重光照方法。

httpv://www.youtube.com/watch?v=ui9Lg2H–0c
Categories: 香港中文大學, 影像處理, 開源

TwinFlow-Qwen-Image-v1.0 極速生成影像框架

TwinFlow 利用自對抗流實現大型模型的一步生成框架,是一個能夠實現高品質單步和少步生成而不會造成管道臃腫的框架。

值得注意一般大型多模態模型為了取得了驚人的生成能力,代價十分高昂:因為推理效率低。標準的擴散模型和流動匹配模型通常需要50-100 次非特徵提取 (NFE)才能產生一幅影像。

Categories: 影像模型, 開源








Page 8 of 65
1 6 7 8 9 10 65