HuMo：文本、圖片和音訊三種輸入 – Infer News

HuMo：文本、圖片和音訊三種輸入

HuMo 是一個以人類為核心的多模態條件影片生成框架，能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成，可自由設計角色造型、服裝、道具和場景。
文字指令的高遵循度、角色連貫性，以及音訊帶動的動作同步。
可生成 480P 或 720P 的高規格影片，並支援多 GPU 計算。

快速安裝及使用

透過 Conda 及 pip 安裝相關依賴（Python 3.11、Torch 2.5.1 等），並下載模型檔。
支援直接輸入文本、參考圖片和音訊檔案，根據三種模式（TA、TIA）選擇推理腳本運行生成。

Categories: 字節跳動, 開源, 數字人, 視頻模型