Gen3R 影片資訊直接生成 3D 

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架,目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣,這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是:先把 VGGT 重建模型的 token 包成幾個幾何潛在變數,再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在;兩種潛在同時生成,互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊(相機姿態、深度圖、全局點雲)。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果,而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起,而不是分開處理。  

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction
Categories: 開源, 字節跳動, 3D, 影像模型, 影像處理


HuMo:文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架,能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

  • 支援 文本-圖片文本-音訊 及 文本-圖片-音訊 的多模態影片生成,可自由設計角色造型、服裝、道具和場景。
  • 文字指令的高遵循度、角色連貫性,以及音訊帶動的動作同步。
  • 可生成 480P 或 720P 的高規格影片,並支援多 GPU 計算。

快速安裝及使用

  • 透過 Conda 及 pip 安裝相關依賴(Python 3.11、Torch 2.5.1 等),並下載模型檔。
  • 支援直接輸入文本、參考圖片和音訊檔案,根據三種模式(TA、TIA)選擇推理腳本運行生成。

Categories: 開源, 字節跳動, 數字人, 視頻模型

USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

(more…)
Categories: 開源, 字節跳動, 影像模型, 影像處理

MoC 突破時空限制:AI 長影片生成

AI 不僅能創造出栩栩如生的圖片,還能生成數分鐘、甚至更長,且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而,一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術,正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展,為長影片生成帶來了革命性的解決方案,有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰,在於模型必須能夠在漫長的時間序列中,保持並檢索關鍵事件,同時避免資訊崩潰或內容漂移。現有的擴散變換器(diffusion transformers)雖然在短影片生成方面表現出色,但其自注意力(self-attention)機制的二次方成本,使得處理長序列時,記憶體和計算資源的消耗變得難以承受,導致效率低下且難以優化。這意味著,隨著影片時長的增加,AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定,導致影片內容的連貫性、一致性大大降低。

(more…)
Categories: 開源, 香港中文大學, 字節跳動, 影像模型

Page 2 of 2
1 2