SwiftVR:低清、模糊影片實時修復

SwiftVR qualitative comparison

把低清、模糊的影片即時變成清楚版本,一直是擴散式(diffusion-based)影片修復(VR, Video Restoration)模型的痛點:畫質漂亮,卻慢得跑不動。SwiftVR 是一個以單步生成(one-step generative)路線設計的串流修復框架,主打把高解析度延遲壓到可即時播放的範圍,同時保持擴散模型的視覺品質。

為何能跑得這麼快? 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本:SwiftVR 引入 MFSWA(Mask-free shifted-window self-attention),把每個空間窗口預先重排成稠密張量,讓每次注意力呼叫都走標準的 SDPA(Scaled Dot-Product Attention)路徑,省掉遮罩、循環位移、稀疏 kernel,吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重:他們改用一個輕量級的 ReAE(Restoration-aware Autoencoder),與 DiT(Diffusion Transformer)聯合在像素空間微調,讓分塊解碼不再卡住流水線。

數字上多誇張? 同一個權重檔,在單張 H100 上,QHD(2560×1440)24 幀約 31 FPS、4K(3840×2160)約 14 FPS,而所有比較的擴散式 VR baseline 在 4K 都 OOM(Out-of-Memory,記憶體溢位)。換到消費級的單張 RTX 5090,1080p 可達約 26 FPS,達到即時串流門檻,且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注? 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師;對 DiT、串流推理、邊緣部署有興趣的開發者;以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置: 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS,SwiftVR 約 31.32 FPS,速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力,但具體分數請以原論文表格為準。

重點摘要:

  • 單步生成路線:放棄多步擴散,以一步生成換取低延遲。
  • MFSWA 注意力:把窗口預聚集成稠密張量,繞過稀疏 kernel。
  • ReAE 解碼器:取代 3D VAE,解放分塊解碼的瓶頸。
  • 因果分塊串流:無滾動 KV、快取即可限制時間軸成本。
  • 消費級硬體可達即時:RTX 5090 1080p 約 26 FPS,H100 一路到 4K。

GitHub: https://github.com/H-oliday/SwiftVR

項目: https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

StreamChar:長時間角色聲畫生成新路線

StreamChar architecture overview

StreamChar 是一個研究展示項目,聚焦 Long-Horizon Streaming Character Audio-Video Generation,也就是長時間、串流式的角色音訊與影片生成。從頁面可見,它的核心組合包括 Decoupled LLM orchestration、joint audio–video DiT denoising backbone、Sink-Chunk Memory,以及 Online Rollout Distillation。

這個項目要處理的重點,是角色聲畫內容在較長輸出過程中的連續性與穩定度。一般生成流程一旦拉長,容易出現內容斷裂、角色狀態不一致,或音訊與畫面節奏不同步;StreamChar 看來就是針對這類長序列生成問題而設計。

使用這個項目時,現階段較像觀看研究成果與示範,而不是直接提供完整產品化操作流程。頁面提供 Paper (arXiv) 與示範影片,適合先從 demo 觀察輸出效果,再配合論文理解整體方法與系統拆分方式。

它的技術方向幾個重點相當清楚:把 LLM 的 orchestration 與底層聲畫生成解耦、以 Streaming DiT Backbone 負責連續生成,並加入 Sink-Chunk Memory 支援長時間上下文。Online Rollout Distillation 則顯示團隊有針對串流生成過程做效率或穩定性上的訓練安排,但頁面摘要未提供更完整數字。

  • 聚焦 Long-Horizon Streaming Character Audio-Video Generation
  • 結合 Decoupled LLM orchestration 與 joint audio–video DiT denoising
  • 以 Sink-Chunk Memory 處理長序列上下文
  • 提供研究示範影片,輸出為 native resolution
  • 適合關注角色生成、串流生成與多模態研究的人

如果你是做生成式 AI、虛擬角色、數碼人或影片合成相關項目,這個項目有參考價值。至於性能和評估,頁面目前只見方法名稱、論文入口與 demo,未見明確基準分數;較穩妥的做法,是把它視為一條值得追蹤的研究路線,再到論文中查看完整實驗細節。

項目: https://humanaigc.github.io/StreamChar_page/

Categories: 阿里巴巴, 影像處理, 視頻模型

LoomVideo:阿里巴巴 5B 模型挑戰統一影片生成

architecture

LoomVideo 由北京大學與阿里巴巴聯合發布,主打「統一多模態輸入的影片生成與編輯」,把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數,且為了加入來源影片條件,往往要把所有 token 接在一起,導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位,就是用更小、更快的設計,達到同等甚至更好的效果。

這個項目基於 MLLM(多模態大語言模型)加 DiT(Diffusion Transformer)的組合,並提出三個關鍵設計:Deepstack Injection 從 MLLM 每一層抽取特徵,再透過 cross-attention 注入對應的 DiT 層;Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上,免去 token 拼接的額外負擔;Negative Temporal RoPE 為參考圖片指定負的時間索引,讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務:文生影片、純文字指令編輯、影片加圖片加文字的指令編輯,以及多張參考圖的條件生成,全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現,並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成,論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者,以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo,程式碼亦同步釋出,有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要

  • 5B 參數的統一影片生成與編輯模型,定位比 13B+ 同類更輕量。
  • 以 MLLM + DiT 架構為基礎,並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
  • 支援文生影片、文字指令編輯、影片加圖片文字編輯,以及多圖片條件生成四種任務。
  • 論文聲稱比同級模型快至少 5.41 倍,並在電商與時尚場景表現突出。
  • 模型與程式碼已公開,方便研究者與開發者快速試用與改進。

GitHub: https://github.com/MSALab-PKU/LoomVideo

項目: https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

Lumos-Custom:DAMO 學院的影片生成套件

ETV task prompt

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集,把三個子項目整合在同一個儲存庫,方便研究者各自取用。三個子項目分別對應不同的影片生成難題:身份與屬性定制、打光控制,以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus (arXiv 2605.31603)。它解決了一個長期痛點:把大型高保真生成器放進統一訓練迴圈成本太高,改為訓練一個輕量的連接器對齊理解模組,再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器,既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白,作者還發布了 VR-Bench

第二個項目是 LumosX,已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」:先用字幕與 MLLM 抽取的先驗建構關係結構,再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/,權重已上傳 Hugging Face。

第三個項目是 UniLumos(NeurIPS 2025),專注於圖像與影片的統一重新打光,採用 RGB 空間幾何回饋配合 flow-matching 主幹,適合需要控制光影的研究與應用場景。

總結要點:

  • ** DAMO 是 Discovery, Adventure, Momentum and Outlook
  • Lumos-Nexus:輕量訓練搭配 UPFB 頻率交接,兼顧推理品質與視覺保真度
  • LumosX:以關係式注意力處理多主體個性化生成,附 benchmark 與 Hugging Face 權重
  • UniLumos:統一圖片與影片重新打光,採用 flow-matching 與幾何回饋
  • VR-Bench:補上推理驅動影片生成的評測缺口
  • 子項目獨立部署:每個子項目都有獨立 README,支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果,可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論;想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub: https://github.com/alibaba-damo-academy/Lumos-Custom

項目: https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

minWM:由影片生成走向 World Model

Repository image for shengshu-ai/minWM

minWM 的定位很清楚:它不是再提供一個新模型,而是把建立 video world model 的整條流程拆開,讓人由 bidirectional T2V(Text-to-Video)或 TI2V(Text-and-Image-to-Video)基礎模型,一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說,這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」,而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程,並提供 example data、runnable scripts、Claude Skills 與新手知識整理,方便你先跟一次標準流程,再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題,在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作,背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制;minWM 正是把這些環節模組化,並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

  • 支援 4-step DMD inference,並提到 multi-GPU sequence parallelism
  • 可用 pose strings 或 JSON 檔控制 camera trajectory
  • 提供 debug-world-model,整理 loss NaN、jitter、camera drift 等常見失敗模式
  • 提供 integrate-new-backbone,示範怎樣接入新的 video DiT
  • 參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B,亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式,也把團隊累積的排錯經驗與 Claude 協作流程寫進項目,令研究者或工程人員不只看到結果,還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models,並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程,若你想比較單一模型跑分,這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub: https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

LongCat-Video 1.5:生成更實用的長片

LongCat-Video

LongCat-Video 是一個 13.6B 參數的影片生成項目,主打把文字生成影片、圖片生成影片,以及影片續寫放進同一套架構。對一般使用者來說,最易明白的價值是:不用為不同影片任務分開找不同模型,處理流程可以更集中。

它解決長影片生成常見的畫面走樣、色彩飄移,以及愈生成愈差的情況。項目特別提到自己原生預訓練了影片續寫能力,因此在長時間內容上較有優勢,目標是生成分鐘級影片時仍保持穩定。

先決定輸入方式:有文字概念就做 Text-to-Video,有單張圖片就做 Image-to-Video,要接續既有片段就用 Video-Continuation。提供相關模型與延伸版本,包括 LongCat-Video、LongCat-Video-Avatar 1.5,以及 Hugging Face 與 ModelScope 上提供的模型頁面。

它同時強調速度與畫質。項目表示透過時間與空間兩個方向的 coarse-to-fine 生成策略,再配合 Block Sparse Attention,可在數分鐘內產出 720p、30fps 影片;這類設計對高解析度生成尤其重要,因為影片模型最常見瓶頸就是算力與等待時間。

  • 單一模型支援 Text-to-Video、Image-to-Video、Video-Continuation
  • 強調長影片生成,主打減少色偏與畫質退化
  • 以 coarse-to-fine 加速推理,兼顧效率與解析度
  • 提到用多重獎勵的 GRPO 強化學習提升整體表現

這項目較適合關注開源影片生成、長片段內容、角色或場景延續的人,也適合想研究統一式影片模型設計的開發者。其表現可比肩領先開源模型與新近商業方案,但更細的分數與比較細節,仍需要配合技術報告一併閱讀會較穩妥。

Evaluation Results

Text-to-Video

The Text-to-Video MOS evaluation results on our internal benchmark.

MOS scoreVeo3PixVerse-V5Wan 2.2-T2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Text-Alignment↑3.993.813.703.76
Visual Quality↑3.233.133.263.25
Motion Quality↑3.863.813.783.74
Overall Quality↑3.483.363.353.38

Image-to-Video

The Image-to-Video MOS evaluation results on our internal benchmark.

MOS scoreSeedance 1.0Hailuo-02Wan 2.2-I2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Image-Alignment↑4.124.184.184.04
Text-Alignment↑3.703.853.333.49
Visual Quality↑3.223.183.233.27
Motion Quality↑3.773.803.793.59
Overall Quality↑3.353.273.263.17

GitHub: https://github.com/meituan-longcat/LongCat-Video

Categories: 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 世界模型

WorldKV 點樣用較少記憶保留影片世界記憶

Input image: a yellow duckling swimming on a sunlit pond with water lilies

WorldKV 是一個針對自回歸影片世界模型的記憶管理項目,重點是用更少 KV cache 成本,保留模型對早前畫面與視角的長期記憶。頁面指出,它屬於免訓練框架,意思是不用重新訓練模型,就可以直接加到既有流程之中。

這個項目要處理的核心問題,是完整保留 KV cache 雖然有助模型記住之前見過的場景,但會很快吃光 GPU 記憶體,注意力計算亦會愈來愈慢。WorldKV 的做法是只在需要重訪某個視角或區域時,取回最相關的歷史片段,而不是永遠把全部內容放在作用中的視窗內。

它的設計有兩個關鍵部分:World Retrieval 會把被移出的 KV 片段按鏡頭或動作狀態建立索引,之後在合適時機取回最相關的 top-k 片段,而且不需要重新編碼;World Compression 則以每段首幀作錨點,利用 key-key cosine similarity 移除過於相似的 token,保留較能代表新區域或時間變化的資訊。

重點可留意:
– 屬於免訓練方法,較易接入現有模型流程
– 以檢索方式保留重訪所需記憶,而非硬性保存全部內容
– 以壓縮方式減少每段儲存量,頁面稱可減半
– 在 Matrix-Game 2.0 與 LingBot-World-Fast 上,吞吐量約提升至 2 倍,同時 KV cache 的 VRAM/RAM 佔用接近減半
– 頁面指記憶保真度可達到,部分情況甚至超過 Full KV

對想處理長影片生成、互動世界模擬,或需要模型記住先前視角與場景的人來說,這個項目特別值得留意。從頁面資訊看,它最適合受限於 GPU 記憶體、又希望維持即時或接近即時推理速度的情境;目前展示內容以項目頁與論文摘要為主,更細緻的限制與穩定性仍要留待論文與程式碼進一步確認。

*未有清楚列出完整基礎模型名稱。

項目: https://cvlab-kaist.github.io/WorldKV/

Categories: 3D, 視覺模型, 視頻模型

InsightTok:令生圖文字人臉更清晰

Method

生成圖片時,最常令人出戲的往往不是背景,而是招牌上的字、海報上的字句,或者人臉五官的細節。InsightTok 針對的正正是這兩個難位:它不是直接改整個生圖模型,而是先改善圖片被「拆解成代碼」的方式,讓後續生成時更易保留重要內容。

實際使用上,這類專案較適合已經在做文字生成圖片、研究離散視覺 tokenization,或使用自回歸圖像生成流程的開發者與研究者。重點在於把原有流程中的視覺 tokenizer 換成 InsightTok 這一類方案,後面的生成模型理論上毋須大改,對現有管線算是較容易接入。

它的特別之處,在於沒有只用一般重建目標,而是更有意識地照顧局部而且重要的內容,例如文字區域與人臉區域。根據儲存庫提供的說明,它在相同壓縮率下,能做到更好的文字與人臉重建,同時只用 16× downsampling 和 16,384 個條目的 codebook,額外訓練成本亦相對有限。

  • 主要改善圖片中的文字可讀性人臉細節還原
  • 可兼容標準自回歸圖像生成流程,毋須連下游模型一併重寫
  • 在相同壓縮條件下,重建效果主打更清晰、更忠於原圖
  • 設計上延續 VQGAN 風格 tokenizer 思路,但加強重點區域 supervision
  • 相關脈絡包括離散視覺 tokenizer、VQGAN 風格方法,以及文字生成圖片模型

整體來看,InsightTok 吸引之處不在花巧功能,而在於它抓到生圖最常被批評的痛點,再用相對務實的方法補強。對一般讀者來說,可以把它理解成一個「令 AI 更識得保住字同樣貌」的底層零件;對技術團隊而言,它較像是一個可直接提升畫面可用性的基礎組件。

GitHub: https://github.com/LeapLabTHU/InsightTok

Paper: https://arxiv.org/pdf/2605.14333

Categories: 開源, 微軟, 視覺模型, 視頻模型, 中國, 清華大學

FashionChameleon 讓換衫影片更即時

fashionchameleon

FashionChameleon 針對的是一個很實際的問題:想將人物影片中的服飾換款,但又不想等太耐,亦不想一換衫就令動作、姿勢或畫面穩定性明顯走樣。它把重點放在「生成途中仍可互動調整」,對電商展示、短片製作和虛擬試衫概念都幾有參考價值。

現階段較適合把它當成研究成果去了解,而不是即裝即用工具。公開資訊顯示,作者已提供論文和專案頁,但模型權重、前訓練與後訓練程式碼仍未完全釋出;想實際跟進,可先看示範頁面與技術報告,理解它點樣處理單件服飾影片資料,再留意後續更新。

它較特別的地方,在於不用依賴大量「同一人物不停換多套衫」的影片去訓練,改為先用單一參考圖與服飾圖建立學習方式,再透過串流式蒸餾提升長片段一致性。另一個亮點是生成期間可重整快取機制,令服飾切換更貼近即時互動,而不只是預先算好一條片。

重點可留意以下幾點:
– 主打人物服飾層面的影片客製化,而非單純換背景或整體風格
– 強調即時生成,論文提到單張 GPU 可達 23.8 FPS
– 目標是在換衫時保留動作連貫,減少前後畫面跳動感
– 訓練思路偏向用單件服飾資料學出可切換能力
– 現時較多是研究展示,部署門檻仍視乎後續釋出的程式與權重

相關模型方向可聯想到 image-to-video、人像影片生成、服飾替換與自回歸影片模型;文中亦明確圍繞 teacher model、streaming distillation 和 KV cache rescheduling 幾個核心設計。整體來說,FashionChameleon 最吸引之處不只是「識換衫」,而是朝住可互動、低延遲、長片仍較穩定這三件事同步推進,對需要即時預覽效果的應用尤其值得留意。

GitHub: https://github.com/quanjiansong/FashionChameleon

Paper: https://arxiv.org/pdf/2605.15824

Categories: 開源, 阿里巴巴, 視覺模型, 視頻模型

Causal-Forcing 點樣令影片動作更豐富

overview

如果你對 AI 生成影片有興趣,Causal-Forcing 最值得留意的地方,不只是「出片快」,而是它特別著重動作變化是否合理。很多影片模型可以生成靚畫面,但人物移動、鏡頭轉換或物件軌跡,往往會有忽快忽慢、前後不連貫的情況;呢個專案正正是針對這類動態問題下手。

它的核心想法,是用更符合時間先後關係的方法,去引導自回歸式影片生成。簡單講,模型不只是學每一格畫面「似唔似」,而是更重視每一步動作點樣接續上一刻,令運動軌跡更穩定。README 亦明確指出,Causal Forcing 在視覺品質之外,對 motion dynamics 的表現比 Self Forcing 更好,而且訓練成本與推理效率大致維持同一水平。

對一般使用者而言,上手方向算清晰:它已提供推理與訓練流程,並支援文字生成影片,以及由圖片延伸成影片的形式。特別是 frame-wise 版本,因為按逐格方式處理,較容易理解為直接面向每個時間步,對需要細緻控制動作延續的人會更有吸引力。

  • 重點放在動作連貫性,不只追求單幀畫面靚
  • 支援 chunk-wise 與 frame-wise 兩類模型設計
  • 涵蓋 T2V、I2V,實用場景較廣
  • Causal Forcing++ 再進一步提供 1-step、2-step frame-wise 模型
  • 相關版本可留意 Causal Forcing、Causal Forcing++,以及 README 提到的 Self Forcing 作比較對象

再看它的創新位,關鍵在於用 Causal ODE,或在 Causal Forcing++ 中改用 causal Consistency Distillation,去做一個更合理的初始化,再配合 asymmetric DMD。從專案說明可見,作者很強調「生成軌跡要對齊」這件事,亦因此在某些階段要使用自回歸老師模型,這對保持動作隨時間推進的一致性尤其重要。

如果你的重點是互動式影片、角色連續動作、長一點的鏡頭推進,呢個專案比起只看單張效果的模型更值得研究。它未必是最易即學即用的大眾化工具,但對於想改善 AI 影片「會動但唔自然」這個老問題的人,方向相當明確。

網址: https://github.com/thu-ml/Causal-Forcing

網址: https://arxiv.org/pdf/2605.15141

Categories: 開源, 視頻模型, 清華大學

Page 2 of 8
1 2 3 4 8