字節跳動 – Infer News

HuMo：文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架，能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成，可自由設計角色造型、服裝、道具和場景。
文字指令的高遵循度、角色連貫性，以及音訊帶動的動作同步。
可生成 480P 或 720P 的高規格影片，並支援多 GPU 計算。

快速安裝及使用

透過 Conda 及 pip 安裝相關依賴（Python 3.11、Torch 2.5.1 等），並下載模型檔。
支援直接輸入文本、參考圖片和音訊檔案，根據三種模式（TA、TIA）選擇推理腳本運行生成。

Categories: 字節跳動, 開源, 數字人, 視頻模型

USO：統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」，能將任何影像主體融入任何風格，開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上，風格驅動生成模型側重於風格相似性，而主體驅動生成模型則強調主體的一致性，這兩者往往難以兼顧。USO 模型的誕生，打破了這種壁壘，它提出了一種統一的框架，透過對「內容」與「風格」的解耦與重組，實現了兩者的自由組合。無論您想將特定人物融入動漫風格，或是為靜物照片賦予水彩畫的韻味，USO 都能輕鬆應對。

(more…)

Categories: 字節跳動, 開源, 影像模型, 影像處理

MoC 突破時空限制：AI 長影片生成

AI 不僅能創造出栩栩如生的圖片，還能生成數分鐘、甚至更長，且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而，一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術，正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展，為長影片生成帶來了革命性的解決方案，有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰，在於模型必須能夠在漫長的時間序列中，保持並檢索關鍵事件，同時避免資訊崩潰或內容漂移。現有的擴散變換器（diffusion transformers）雖然在短影片生成方面表現出色，但其自注意力（self-attention）機制的二次方成本，使得處理長序列時，記憶體和計算資源的消耗變得難以承受，導致效率低下且難以優化。這意味著，隨著影片時長的增加，AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定，導致影片內容的連貫性、一致性大大降低。

(more…)

Categories: 字節跳動, 香港中文大學, 開源, 影像模型