數字人 – InferNews

Latent-Identity Tuning 人像身份細緻微調

2026 年 7 月 15 日

想修改鼻形、加鬍鬚或雀斑，同時又保留同一個人的辨識度，對 text-to-image (T2I) 個人化生成來說一直很難。Latent-Identity Tuning in Text-to-Image Personalization Models 聚焦在這個卡位：不只是改一張圖，而是調整某個人的身份表示，之後可在不同場景中生成同一個經過微調的人。

做法上，輸入人像會先經由預訓練 personalization encoder 轉成一組 identity tokens。研究發現，不同 token 會偏向捕捉眼、鼻、口、頭髮等不同區域或語義特徵，因此可以在這個 identity space 入面尋找有意思的方向，例如鬍鬚、捲髮或其他面部屬性，再沿着方向調整。

直接微調 identity tokens，而不是只在單張圖片上修圖
可做局部、細緻，而且語義較一致的人臉改動
修改後的身份可配合不同 prompts 生成新圖
透過 attention maps 觀察 token 與臉部區域的關係
使用定性與定量實驗檢查局部編輯及跨圖身份一致性

和常見 image editing 相比，這個方法的差異在於它處理的是「身份的潛在表示」。換言之，改動不是鎖死在原圖姿勢、背景或光線，而是把編輯後的身份交給 T2I 模型，在新場景、新描述下仍盡量維持同一個人。

這類方法會較適合需要穩定角色形象的創作者、視覺設計工作流，以及研究人像個人化生成的人。限制上，資料未交代可直接使用的產品化介面或完整模型名單；引用模型方面，內容只提到預訓練 personalization encoder 與 text-to-image model，未列明具體基礎模型名稱。

項目主頁 · Paper

Categories: Image, txt2img, 數字人, 框架

Vidu S1 把即時互動影片拉近一步

2026 年 7 月 10 日

比起先寫好提示詞再等片段輸出，Vidu S1更接近一種可對話的視頻模型：你一邊講，數碼角色一邊跟住反應，處理的是「影片生成能否即時被人打斷、改向、持續延長」這個卡位。項目把重心放在 voice-controlled digital characters，而不是一次過產出完整短片，定位很清楚是互動內容而非傳統文生影片。

現有做法多數仍是 prompt-driven、片段式生成，用戶先提交指令，再等待固定長度輸出；作者主張這種範式難以支援 live interaction。Vidu S1改用 real-time speech control 與 infinite-length real-time interactive generation，讓角色在生成途中持續接受 spoken instructions，方向上更接近直播角色、虛擬主播和即時陪伴互動，而不是 cinematic clip 製作。

支援以語音即時控制角色動作，重點在連續互動而非單次出片
可自訂角色形象與 voice tones，涵蓋真人、二次元、寵物等 avatar
官方資料提到 540p、最高 42 FPS，並可在 consumer GPUs 運行
除了網頁體驗，也提供 API 文件，較適合接入互動產品流程

現有公開資訊較偏向服務化體驗：可先在 Vidu Stream 網頁建立角色、選擇或 clone 聲線，再開啟麥克風與鏡頭進行 live call；團隊要接入自家產品，則更可能經 API 而非直接本地完整重建。GitHub 儲存庫目前公開了論文、說明文件與入口，但未見完整本地訓練或推理流程，較像展示能力與提供接入方式的研究／產品型開源項目。

取捨也很明顯：它強調流暢、低延遲、可長時間互動，代表優先次序未必是最高解析度或最複雜鏡頭語言。受益最大的會是做虛擬主播、互動陪伴、角色扮演、品牌數字人和即時內容演示的團隊；要做電影感分鏡、長敘事剪輯或高度後期控制，現階段未必是它最強的一面。相關模型則包括 Vidu S1 本身，以及同一服務脈絡下的 Vidu Stream 互動入口。

項目主頁 · GitHub · Paper

Categories: 開源, API, Clone, 多模態模型, 數字人, 視覺模型, 視頻模型, 語音, Dataset 數據集, 清華大學

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

Wan Streamer：即時生成影音互動模型

2026 年 6 月 26 日

Wan Streamer v0.1 是一款由阿里巴巴（通義萬相/Wan 團隊）開發的原生流式端到端基礎模型，專為即時、低延遲、全雙工的音視頻互動而設計。它把語言、音訊、影像同時作為輸入與輸出，全部整合在單一 Transformer 之中，並以 block-causal attention 協調增量式生成。

現有即時互動系統普遍存在的延遲與不同步難題。純語音方案雖然回應快，但沒有可見的影像輸出；音視頻方案則多由 ASR、語言模型、TTS、動畫模組拼接而成，每個邊界都會疊加延遲，而且很少有系統公開端到端時延數字。Wan Streamer 把整個流程重新設計為可流式架構，包括因果編解碼器、block-causal attention、低延遲多模態 token 排程，在 25 fps 下最短流式單元可達 160 毫秒。

與常見做法的最大差異在於「端到端」與「同步影音輸出」。模型側延遲約 200 毫秒，加入 350 毫秒雙向網絡延遲後，總互動延遲約 550 毫秒，可支援亞秒級全雙工通訊。同時輸出語音與影片內容，而非分別由不同模組拼接，這是它最值得留意的特點。模型覆蓋聽、看、思考、說話、生成影像回應五種能力，適用於需要即時數字人、互動助理、虛擬陪伴等低延遲場景。

重點摘要：

由阿里 Wan/通義萬相團隊研發，定位為即時互動基礎模型
單一 Transformer 同時處理語音、影像、文字輸入與輸出
模型側延遲約 200 毫秒，總互動延遲約 550 毫秒
支援 25 fps 串流，最短流式單元 160 毫秒
與拼接式方案相比，延遲更低且影音輸出真正同步

項目主頁： https://wan-streamer.com/

Categories: 阿里巴巴, Agentic, 多模態模型, 模型, 數字人, 視頻模型, 語音

SpatialAvatar-0：人像重建高質 4D 頭像

2026 年 6 月 22 日

SpatialAvatar-0 針對的是 4D head avatar 重建：只靠一張或少量 source portraits，就生成可配合時間變化的頭像表示，適合 telepresence、AR/VR 同 digital-human interaction。它採用 FLAME-mesh-bound Gaussian 表示，核心是把 feed-forward generator 同 per-subject refinement 放入同一套結構，減少以往兩類方法各自為政的問題。

常見做法通常分成兩路：一類是可直接預測的模型，速度快，但容易受訓練數據領域限制；另一類是按單一人物慢慢微調，質素高但迭代很長，還會因 adaptive densification 打亂原本 Gaussian 佈局。SpatialAvatar-0 的差異，在於加入 parameter-free K-source mean-pool，支援可變數量輸入，並用 monocular-temporal 到 multi-view-spatial 的兩階段訓練，嘗試減少 identity-prior collapse。

微調部分也有明顯取向：它不是走 300K 至 600K iterations 的長流程，而是保留佈局的 10K-iter refinement loop，凍結 FLAME 綁定與 Gaussian 數量，再以 three-component anti-spike regularization 取代 densification。對想保留上游表示、又想做人物級細修的工作流，這種設計會較容易接軌。

已公開資料顯示，它在 VFHQ、HDTF 的 cross-domain zero-shot 測試中，PSNR 比 GAGAvatar 高 1.5 dB，而且模型未有在這兩個測試領域訓練；在 SplattingAvatar monocular benchmark，亦全面領先已報告指標，較 300K-iter 的 GeoAvatar 高 1.3 dB PSNR，同時把單人物微調流程縮短至最多 60 倍。數字反映它著重的是泛化能力與重建效率的平衡，但具體效果仍要視輸入人像質素與場景條件而定。

支援一張或多張人像輸入，重建高質 4D 頭像
統一 feed-forward generator 與 per-subject refinement 的表示方式
10K-iter 微調流程，比常見長迭代方法短得多
在 VFHQ、HDTF、SplattingAvatar 基準上有明確成績提升

頁面暫未提供 Code 與 🤗 Model 入口。對 3D Gaussian Splatting（3DGS）、數字人、AR/VR 內容製作有興趣的讀者，可以先從示範效果理解它的輸出風格，再留意它如何處理少樣本輸入與跨資料域表現。文中引用模型包括 GAGAvatar、GeoAvatar。

項目主頁： https://spatialwalk.github.io/SpatialAvatar-0/

Paper： https://arxiv.org/pdf/2606.15659

Categories: 開源, Image, 3D, 模型, 數字人, 視覺模型

OmniDirector：免配對數據的多鏡頭運鏡克隆技術

2026 年 6 月 15 日

OmniDirector 由清華大學（Yu-Shen Liu 為北京清華大學團隊）與 Kling Team（快手科技）的研究團隊，共同開發，成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人，團隊來自多個機構，橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法，解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練，而 OmniDirector 的核心創新在於提出「相機網格」（camera grid）表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡，形成統一的網格表示。配合階層式提示詞擴展代理（hierarchical prompt expansion agent），把多模態控制信號整合成協調的指令。

使用時，使用者只需提供一張源圖像和一段參考影片，OmniDirector 便能克隆其中的運鏡動作，生成動態影片。多鏡頭場景下，新方法支援鏡頭之間的連貫過渡與一致的內容呈現，保持原始的視覺語言。特殊運鏡方面，涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果，適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Watch this video on YouTube

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者，以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比，新方法在控制穩定性與物件形變方面表現出色。

重點摘要：
– 核心創新為「相機網格」表示法，免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強，涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼，方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的，沒有 source code 或 model 。

項目： https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 框架, 清華大學, 北京大學

Boson AI 開源 4B 參數語音模型 Higgs Audio v3 速覽

2026 年 6 月 7 日

bosonai/higgs-audio-v3-tts-4b 是由 Boson AI 在 Hugging Face 上開源的一款文字轉語音（Text-to-Speech, TTS）模型，整個模型約有 40 億（4B）個參數。這個項目主打多語言語音合成，並可根據少量參考音訊複製說話者的聲線，亦支援多輪對話式的語音生成，常用於 AI 配音、對話機械人、有聲內容製作等場景。

模型以 transformers 框架發佈，頁面具備 chat_template_jinja 範本，方便整合到現有的對話系統中。開發者可以直接透過 Hugging Face Transformers 載入 tokenizer 和模型，並依官方範例程式碼生成 wav 音檔，整體流程對熟悉 Python 的使用者而言並不複雜。

Higgs Audio v3 TTS: Beyond Reading, Toward Real Speech

Watch this video on YouTube

這個項目主要處理傳統 TTS 難以兼顧「自然對話感」與「聲線多樣性」的痛點。模型能根據文字內容自動調整語氣、停頓與情緒，讓合成結果更貼近真人發聲。

重點摘要：

規模與定位：約 40 億參數的開源 TTS 模型，定位為輕量而功能完整的語音方案。
核心功能：支援文字轉語音、聲線複製（voice cloning）以及多輪對話語音生成。
多語言支援：可處理多種語言的合成任務，適合跨語言應用。
使用門檻：需要 Python 環境與 Hugging Face Transformers 基礎知識，建議配備 GPU 以獲得順暢體驗。
整合彈性：內建 chat template，方便接駁到聊天機械人或多輪對話流程。

這個項目較適合從事 AI 語音應用、虛擬助手、有聲書或遊戲配音的開發者與研究人員。如追求極低部署成本，亦可考慮使用雲端 GPU 或 Hugging Face Inference Endpoints 來運行。

項目： https://huggingface.co/bosonai/higgs-audio-v3-tts-4b

Categories: 開源, 數字人, 語音

用 20 萬小時訓練的開源語音合成：PilotTTS 強在哪？

2026 年 6 月 6 日

PilotTTS 是高德地圖（Amap）團隊在 GitHub 上開源的文字轉語音（text-to-speech, TTS）項目，主打以 LLM-based 架構配合嚴謹的資料工程，用較少資源做出具競爭力的合成品質。對想研究語音生成、卻沒有百萬小時資料和龐大算力的團隊來說，這是一個值得關注的選擇。

這個項目要解決的問題很直接：現今最頂尖的 TTS 系統往往依賴數百萬小時的私有資料和複雜的多階段架構，進入門檻極高。PilotTTS 反其道而行，僅以 20 萬小時、以全開源工具處理的資料集進行訓練，並釋出從品質評估、標註到過濾的完整資料管線（data pipeline），讓其他研究者能重現並改良。

在功能面上，項目涵蓋四個面向：零樣本聲音複製（zero-shot voice cloning）、11 種情緒合成、4 種副語音效果（如笑聲、呼吸、咳嗽、哭聲），以及 14 種中文方言的跨方言合成。模型方面，權重分為 pilot_tts.pt（基礎模型）與 pilot_tts_instruct.pt（指令控制版本），可從 HuggingFace 或 ModelScope 下載，配合 w2v-bert-2.0 等開源特徵提取器即可運作。

評估結果方面，團隊在 Seed-TTS Eval 基準上報出了亮眼數字：英文測試集 WER 1.50%、中文 CER 0.87%，兩組測試的說話人相似度（speaker similarity）分別達到 0.862 與 0.815，勝過多個以更大資料集訓練的系統。模型採用 Q-Former-based conditioning，透過跨樣本配對訓練把說話人身份與語氣風格解耦，這是它在精簡架構下仍能保持高表現的關鍵設計之一。

對一般讀者而言，這個項目較適合從事語音合成、LLM 多模態應用或中文方言研究的開發者與學生；對想打造有聲內容、配音工具或無障礙語音介面的產品團隊，它也提供了可直接整合的開源權重與推理流程。

重點摘要

極簡架構：LLM-based 自迴歸模型，以 20 萬小時開源資料處理後的訓練集達到頂尖基準成績。
完整資料管線：品質評估、標註、過濾全部使用公開工具，可重現且成本較低。
多維度控制：支援 11 種情緒、4 種副語音、14 種中文方言的跨方言合成。
頂尖指標：Seed-TTS Eval 取得最高說話人相似度，中文 CER 僅 0.87%。
完整開源：模型權重、處理管線與程式碼均於 GitHub、HuggingFace、ModelScope 釋出。

GitHub： https://github.com/AMAPVOICE/PilotTTS

項目： https://amapvoice.github.io/PilotTTS/

Categories: 開源, 阿里巴巴, 模型, 數字人

LoomVideo：阿里巴巴 5B 模型挑戰統一影片生成

2026 年 6 月 6 日

LoomVideo 由北京大學與阿里巴巴聯合發布，主打「統一多模態輸入的影片生成與編輯」，把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數，且為了加入來源影片條件，往往要把所有 token 接在一起，導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位，就是用更小、更快的設計，達到同等甚至更好的效果。

這個項目基於 MLLM（多模態大語言模型）加 DiT（Diffusion Transformer）的組合，並提出三個關鍵設計：Deepstack Injection 從 MLLM 每一層抽取特徵，再透過 cross-attention 注入對應的 DiT 層；Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上，免去 token 拼接的額外負擔；Negative Temporal RoPE 為參考圖片指定負的時間索引，讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務：文生影片、純文字指令編輯、影片加圖片加文字的指令編輯，以及多張參考圖的條件生成，全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現，並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成，論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者，以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo，程式碼亦同步釋出，有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要：

5B 參數的統一影片生成與編輯模型，定位比 13B+ 同類更輕量。
以 MLLM + DiT 架構為基礎，並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
支援文生影片、文字指令編輯、影片加圖片文字編輯，以及多圖片條件生成四種任務。
論文聲稱比同級模型快至少 5.41 倍，並在電商與時尚場景表現突出。
模型與程式碼已公開，方便研究者與開發者快速試用與改進。

GitHub： https://github.com/MSALab-PKU/LoomVideo

項目： https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

Page 1 of 5

1 2 3 … 5 Next »