HuMo:文本、圖片和音訊三種輸入 HuMo 是一個以人類為核心的多模態條件影片生成框架,能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發 主要特色 支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成,可自由設計角色造型、服裝、道具和場景。 文字指令的高遵循度、角色連貫性,以及音訊帶動的動作同步。 可生成 480P 或 720P 的高規格影片,並支援多 GPU 計算。 快速安裝及使用 透過 Conda 及 pip 安裝相關依賴(Python 3.11、Torch 2.5.1 等),並下載模型檔。 支援直接輸入文本、參考圖片和音訊檔案,根據三種模式(TA、TIA)選擇推理腳本運行生成。 Categories: 字節跳動, 開源, 數字人, 視頻模型