OmniDirector:免配對數據的多鏡頭運鏡克隆技術

Play video

OmniDirector 由清華大學(Yu-Shen Liu 為北京清華大學團隊)與 Kling Team(快手科技)的研究團隊,共同開發,成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人,團隊來自多個機構,橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法,解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練,而 OmniDirector 的核心創新在於提出「相機網格」(camera grid)表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡,形成統一的網格表示。配合階層式提示詞擴展代理(hierarchical prompt expansion agent),把多模態控制信號整合成協調的指令。

使用時,使用者只需提供一張源圖像和一段參考影片,OmniDirector 便能克隆其中的運鏡動作,生成動態影片。多鏡頭場景下,新方法支援鏡頭之間的連貫過渡與一致的內容呈現,保持原始的視覺語言。特殊運鏡方面,涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果,適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者,以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比,新方法在控制穩定性與物件形變方面表現出色。

重點摘要
– 核心創新為「相機網格」表示法,免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強,涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼,方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的,沒有 source code 或 model 。

項目: https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 框架, 清華大學, 北京大學

Boson AI 開源 4B 參數語音模型 Higgs Audio v3 速覽

Og image

bosonai/higgs-audio-v3-tts-4b 是由 Boson AI 在 Hugging Face 上開源的一款文字轉語音(Text-to-Speech, TTS)模型,整個模型約有 40 億(4B)個參數。這個項目主打多語言語音合成,並可根據少量參考音訊複製說話者的聲線,亦支援多輪對話式的語音生成,常用於 AI 配音、對話機械人、有聲內容製作等場景。

模型以 transformers 框架發佈,頁面具備 chat_template_jinja 範本,方便整合到現有的對話系統中。開發者可以直接透過 Hugging Face Transformers 載入 tokenizer 和模型,並依官方範例程式碼生成 wav 音檔,整體流程對熟悉 Python 的使用者而言並不複雜。

Higgs Audio v3 TTS: Beyond Reading, Toward Real Speech

這個項目主要處理傳統 TTS 難以兼顧「自然對話感」與「聲線多樣性」的痛點。模型能根據文字內容自動調整語氣、停頓與情緒,讓合成結果更貼近真人發聲。

重點摘要:

  • 規模與定位:約 40 億參數的開源 TTS 模型,定位為輕量而功能完整的語音方案。
  • 核心功能:支援文字轉語音、聲線複製(voice cloning)以及多輪對話語音生成。
  • 多語言支援:可處理多種語言的合成任務,適合跨語言應用。
  • 使用門檻:需要 Python 環境與 Hugging Face Transformers 基礎知識,建議配備 GPU 以獲得順暢體驗。
  • 整合彈性:內建 chat template,方便接駁到聊天機械人或多輪對話流程。

這個項目較適合從事 AI 語音應用、虛擬助手、有聲書或遊戲配音的開發者與研究人員。如追求極低部署成本,亦可考慮使用雲端 GPU 或 Hugging Face Inference Endpoints 來運行。

項目: https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

Categories: 開源, 數字人, 語音

用 20 萬小時訓練的開源語音合成:PilotTTS 強在哪?

Introduction

PilotTTS 是高德地圖(Amap)團隊在 GitHub 上開源的文字轉語音(text-to-speech, TTS)項目,主打以 LLM-based 架構配合嚴謹的資料工程,用較少資源做出具競爭力的合成品質。對想研究語音生成、卻沒有百萬小時資料和龐大算力的團隊來說,這是一個值得關注的選擇。

這個項目要解決的問題很直接:現今最頂尖的 TTS 系統往往依賴數百萬小時的私有資料和複雜的多階段架構,進入門檻極高。PilotTTS 反其道而行,僅以 20 萬小時、以全開源工具處理的資料集進行訓練,並釋出從品質評估、標註到過濾的完整資料管線(data pipeline),讓其他研究者能重現並改良。

在功能面上,項目涵蓋四個面向:零樣本聲音複製(zero-shot voice cloning)、11 種情緒合成、4 種副語音效果(如笑聲、呼吸、咳嗽、哭聲),以及 14 種中文方言的跨方言合成。模型方面,權重分為 pilot_tts.pt(基礎模型)與 pilot_tts_instruct.pt(指令控制版本),可從 HuggingFace 或 ModelScope 下載,配合 w2v-bert-2.0 等開源特徵提取器即可運作。

評估結果方面,團隊在 Seed-TTS Eval 基準上報出了亮眼數字:英文測試集 WER 1.50%、中文 CER 0.87%,兩組測試的說話人相似度(speaker similarity)分別達到 0.862 與 0.815,勝過多個以更大資料集訓練的系統。模型採用 Q-Former-based conditioning,透過跨樣本配對訓練把說話人身份與語氣風格解耦,這是它在精簡架構下仍能保持高表現的關鍵設計之一。

對一般讀者而言,這個項目較適合從事語音合成、LLM 多模態應用或中文方言研究的開發者與學生;對想打造有聲內容、配音工具或無障礙語音介面的產品團隊,它也提供了可直接整合的開源權重與推理流程。

重點摘要

  • 極簡架構:LLM-based 自迴歸模型,以 20 萬小時開源資料處理後的訓練集達到頂尖基準成績。
  • 完整資料管線:品質評估、標註、過濾全部使用公開工具,可重現且成本較低。
  • 多維度控制:支援 11 種情緒、4 種副語音、14 種中文方言的跨方言合成。
  • 頂尖指標:Seed-TTS Eval 取得最高說話人相似度,中文 CER 僅 0.87%。
  • 完整開源:模型權重、處理管線與程式碼均於 GitHub、HuggingFace、ModelScope 釋出。

GitHub: https://github.com/AMAPVOICE/PilotTTS

項目: https://amapvoice.github.io/PilotTTS/

Categories: 開源, 阿里巴巴, 模型, 數字人

LoomVideo:阿里巴巴 5B 模型挑戰統一影片生成

architecture

LoomVideo 由北京大學與阿里巴巴聯合發布,主打「統一多模態輸入的影片生成與編輯」,把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數,且為了加入來源影片條件,往往要把所有 token 接在一起,導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位,就是用更小、更快的設計,達到同等甚至更好的效果。

這個項目基於 MLLM(多模態大語言模型)加 DiT(Diffusion Transformer)的組合,並提出三個關鍵設計:Deepstack Injection 從 MLLM 每一層抽取特徵,再透過 cross-attention 注入對應的 DiT 層;Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上,免去 token 拼接的額外負擔;Negative Temporal RoPE 為參考圖片指定負的時間索引,讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務:文生影片、純文字指令編輯、影片加圖片加文字的指令編輯,以及多張參考圖的條件生成,全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現,並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成,論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者,以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo,程式碼亦同步釋出,有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要

  • 5B 參數的統一影片生成與編輯模型,定位比 13B+ 同類更輕量。
  • 以 MLLM + DiT 架構為基礎,並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
  • 支援文生影片、文字指令編輯、影片加圖片文字編輯,以及多圖片條件生成四種任務。
  • 論文聲稱比同級模型快至少 5.41 倍,並在電商與時尚場景表現突出。
  • 模型與程式碼已公開,方便研究者與開發者快速試用與改進。

GitHub: https://github.com/MSALab-PKU/LoomVideo

項目: https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

LongCat-Video 1.5:生成更實用的長片

LongCat-Video

LongCat-Video 是一個 13.6B 參數的影片生成項目,主打把文字生成影片、圖片生成影片,以及影片續寫放進同一套架構。對一般使用者來說,最易明白的價值是:不用為不同影片任務分開找不同模型,處理流程可以更集中。

它解決長影片生成常見的畫面走樣、色彩飄移,以及愈生成愈差的情況。項目特別提到自己原生預訓練了影片續寫能力,因此在長時間內容上較有優勢,目標是生成分鐘級影片時仍保持穩定。

先決定輸入方式:有文字概念就做 Text-to-Video,有單張圖片就做 Image-to-Video,要接續既有片段就用 Video-Continuation。提供相關模型與延伸版本,包括 LongCat-Video、LongCat-Video-Avatar 1.5,以及 Hugging Face 與 ModelScope 上提供的模型頁面。

它同時強調速度與畫質。項目表示透過時間與空間兩個方向的 coarse-to-fine 生成策略,再配合 Block Sparse Attention,可在數分鐘內產出 720p、30fps 影片;這類設計對高解析度生成尤其重要,因為影片模型最常見瓶頸就是算力與等待時間。

  • 單一模型支援 Text-to-Video、Image-to-Video、Video-Continuation
  • 強調長影片生成,主打減少色偏與畫質退化
  • 以 coarse-to-fine 加速推理,兼顧效率與解析度
  • 提到用多重獎勵的 GRPO 強化學習提升整體表現

這項目較適合關注開源影片生成、長片段內容、角色或場景延續的人,也適合想研究統一式影片模型設計的開發者。其表現可比肩領先開源模型與新近商業方案,但更細的分數與比較細節,仍需要配合技術報告一併閱讀會較穩妥。

Evaluation Results

Text-to-Video

The Text-to-Video MOS evaluation results on our internal benchmark.

MOS scoreVeo3PixVerse-V5Wan 2.2-T2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Text-Alignment↑3.993.813.703.76
Visual Quality↑3.233.133.263.25
Motion Quality↑3.863.813.783.74
Overall Quality↑3.483.363.353.38

Image-to-Video

The Image-to-Video MOS evaluation results on our internal benchmark.

MOS scoreSeedance 1.0Hailuo-02Wan 2.2-I2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Image-Alignment↑4.124.184.184.04
Text-Alignment↑3.703.853.333.49
Visual Quality↑3.223.183.233.27
Motion Quality↑3.773.803.793.59
Overall Quality↑3.353.273.263.17

GitHub: https://github.com/meituan-longcat/LongCat-Video

Categories: 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 世界模型

PhyMotion點樣令人物動作更似真

teaser image

做人物影片生成,最難往往不是畫面靚唔靚,而係人郁動時有冇「似真」。PhyMotion針對的正是這個痛點:它提供一套較細緻的評分方法,專門檢查生成影片中的人體動作是否合理,例如會否出現腳步飄浮、失去平衡,或者動作雖然順眼但其實不合物理常識。

它的做法幾有意思。團隊先從影片還原出3D人體網格,使用SMPL表示身體,再把動作轉到MuJoCo的人形物理模擬環境內,從三方面評估:關節運動是否自然、接觸與平衡是否一致、以及整體動態是否可行。比起只靠2D畫面觀感打分,這種方法更能指出問題究竟出在哪一層。

如果你想上手,較合理的方式不是把它當成一般剪片工具,而是當成研究或訓練流程中的「動作評審」。儲存庫提供有 PhyMotion-CausalForcing-1.3B 相關權重與 LoRA 形式檢查點,較適合已經在做人像影片生成、後訓練或獎勵設計的人逐步接入。

  • 重點不在直接生成影片,而在替影片中的人體動作評分
  • 結合 SMPLMuJoCo,比純2D評估更重視身體結構與物理性
  • 適用於自回歸與雙向類型的影片生成訓練流程
  • 相關資源包括論文、模型、資料集,以及 PhyMotion-CausalForcing-1.3B

整體來看,PhyMotion最有價值的地方,是把「睇落順眼」進一步拆成可分析的幾個部分,令改進方向更清楚。它特別適合研究員、AI 影片開發者,或者想提升人物動作真實感的團隊;對一般用家來說,未必是即裝即用,但作為理解下一代人物影片質素點樣提升,這個項目相當值得留意。

網址: https://github.com/h6kplus/PhyMotion

Categories: 開源, 影像模型, 影像處理, 數字人



LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成(personalized multi‑subject video generation)提出的框架,重點在:

  • 讓每個「身份」(例如不同人物)和其對應的屬性(年齡、外貌、服飾、動作等)有明確、精準的對齊;
  • 用關係性注意力機制來強化「組內一致性」(同一組人物屬性一致)和「組間區分度」,減少多主體時的屬性糾纏(attribute entanglement)。

簡單說:一樣可以做 text‑to‑video + ID conditioning,但對多個人物、每個人對應什麼屬性,控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景,例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 開源, 阿里巴巴, 數字人, 視頻模型

daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人(human‑centric)的文本到視頻生成模型,同時支援視頻與音頻 token 的聯合生成,主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab(中國上海人工智慧實驗室 SII‑GAIR)與 Sand.ai 這兩方聯合開發

  • 單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer,僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力,也無需多流處理。
  • 🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
  • 🌍多語言— 支援中文(國語和粵語)、英語、日語、韓語、德語和法語。
  • 超快推理-在單一 H100 GPU 上,可在2 秒內產生 5 秒 256p 視頻,在38 秒內產生5 秒 1080p 影片。
  • 🏆最先進的結果—在超過 2,000 次的成對人工評估中,與 Ovi 1.1 的勝率達到80.0% ,與 LTX 2.3 的勝率達到60.9% 。
  • 📦完全開源— 我們發布完整的模型堆疊:基礎模型、精煉模型、超解析度模型和推理程式碼。
Categories: 開源, 模型, 數字人, 視頻模型

Page 1 of 4
1 2 3 4