daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人（human‑centric）的文本到視頻生成模型，同時支援視頻與音頻 token 的聯合生成，主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab（中國上海人工智慧實驗室 SII‑GAIR）與 Sand.ai 這兩方聯合開發

單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer，僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力，也無需多流處理。
🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
🌍多語言— 支援中文（國語和粵語）、英語、日語、韓語、德語和法語。
⚡超快推理－在單一 H100 GPU 上，可在2 秒內產生 5 秒 256p 視頻，在38 秒內產生5 秒 1080p 影片。
🏆最先進的結果—在超過 2,000 次的成對人工評估中，與 Ovi 1.1 的勝率達到80.0% ，與 LTX 2.3 的勝率達到60.9% 。
📦完全開源— 我們發布完整的模型堆疊：基礎模型、精煉模型、超解析度模型和推理程式碼。