StreamChar:長時間角色聲畫生成新路線

StreamChar architecture overview

StreamChar 是一個研究展示項目,聚焦 Long-Horizon Streaming Character Audio-Video Generation,也就是長時間、串流式的角色音訊與影片生成。從頁面可見,它的核心組合包括 Decoupled LLM orchestration、joint audio–video DiT denoising backbone、Sink-Chunk Memory,以及 Online Rollout Distillation。

這個項目要處理的重點,是角色聲畫內容在較長輸出過程中的連續性與穩定度。一般生成流程一旦拉長,容易出現內容斷裂、角色狀態不一致,或音訊與畫面節奏不同步;StreamChar 看來就是針對這類長序列生成問題而設計。

使用這個項目時,現階段較像觀看研究成果與示範,而不是直接提供完整產品化操作流程。頁面提供 Paper (arXiv) 與示範影片,適合先從 demo 觀察輸出效果,再配合論文理解整體方法與系統拆分方式。

它的技術方向幾個重點相當清楚:把 LLM 的 orchestration 與底層聲畫生成解耦、以 Streaming DiT Backbone 負責連續生成,並加入 Sink-Chunk Memory 支援長時間上下文。Online Rollout Distillation 則顯示團隊有針對串流生成過程做效率或穩定性上的訓練安排,但頁面摘要未提供更完整數字。

  • 聚焦 Long-Horizon Streaming Character Audio-Video Generation
  • 結合 Decoupled LLM orchestration 與 joint audio–video DiT denoising
  • 以 Sink-Chunk Memory 處理長序列上下文
  • 提供研究示範影片,輸出為 native resolution
  • 適合關注角色生成、串流生成與多模態研究的人

如果你是做生成式 AI、虛擬角色、數碼人或影片合成相關項目,這個項目有參考價值。至於性能和評估,頁面目前只見方法名稱、論文入口與 demo,未見明確基準分數;較穩妥的做法,是把它視為一條值得追蹤的研究路線,再到論文中查看完整實驗細節。

項目: https://humanaigc.github.io/StreamChar_page/

Categories: 阿里巴巴, 影像處理, 視頻模型

Stable-Layers:靠 VLM 評分強化學習,毋須配對數據也能改良圖層分離

Hero image preview

圖像圖層分解(image layer decomposition)是指把一張圖分成幾層可獨立編輯的 RGBA 影像,再合併回原本的畫面。這個技術是專業修圖與合成工作流的基本工序,但要訓練模型做這件事並不容易:同一張圖往往存在多種合理分層方式,而且品質好壞取決於下游是否好用,例如語意分層是否清晰、alpha 遮罩是否乾淨、是否有冗餘層,以及被遮擋的部分能否被合理填回。

傳統做法會用合成的配對數據集(即同一張圖同時提供「原圖」與「正確分層」)來監督模型學習,但這會帶來先天限制:當多種分層都同樣合理時,強迫模型擬合單一標準答案,等於懲罰了其他可行的解法。Stable-Layers 嘗試繞過這個限制,改用強化學習(reinforcement learning)讓模型直接朝「看起來品質好」的方向優化,監督訊號只來自一個視覺語言模型(vision-language model,VLM)。

具體而言,項目以 Qwen-Image-Layered 為起點,結合 Flow-GRPO 與 LoRA(Low-Rank Adaptation,低秩適應)微調,針對每張圖採樣多個候選分層,再用 VLM 評分,從群組相對優勢(group-relative advantages)來更新策略。當中最大的挑戰是設計可靠的獎勵訊號:VLM 單獨評分時容易把所有樣本擠進一個狹窄的分數區間,導致 GRPO 缺乏組內變化可以學習。為此,Stable-Layers 採用兩階段評估流程——先按五個編輯向標準逐項評分,再把所有候選並排放在標記好的比較網格上重新評分一次,藉此取得更細緻的相對校準。

Stable-Layers 重點摘要:

  • 毋須配對數據:在完全沒有標註的圖像上訓練,解決合成數據集帶來的偏誤問題
  • VLM 擔任評審:利用視覺語言模型就五個編輯標準打分,提供獎勵訊號
  • 兩階段評估:先獨立評分,再以比較網格重新校準,避免分數過度集中
  • 強化學習微調:結合 Flow-GRPO 與 LoRA,從 Qwen-Image-Layered 開始改良
  • 實測表現:在 Crello 數據集上,圖層分離度更高、空白或帶瑕疵的層更少、每層重建誤差也較低

適用場景與對象:這個項目適合做圖像編輯、合成或設計工具的研究者與工程師,尤其是手上沒有大量配對分層數據、又想提升分層品質的團隊。對強化學習應用於視覺生成感興趣的人,也能從它處理「組內變化不足」的設計中得到啟發。

效能與評估:團隊在 Crello 數據集上測試,結果顯示 Stable-Layers 相比基礎模型,圖層分離更明確、出現空白或帶雜訊的層更少,而且每層的重建誤差也更低。論文獲 NeurIPS 2026 接收(arXiv:2605.30257v1)。

引用的模型:Qwen-Image-Layered(基礎分層模型)、Flow-GRPO(強化學習算法)、LoRA(高效微調方法)、視覺語言模型評審。

項目: https://stability-ai.github.io/stable-layers.github.io/

Categories: 開源, 影像模型, 影像處理, 模型, 深度學習

圖片編輯也要動腦?RE-Edit 幫 AI 學會看邏輯

Front Page

現時不少 AI 圖片編輯工具,表面上改得唯肖唯妙,細看卻經常出現「睇落合理、其實犯駁」的情況。來自浙江大學 ReLER Lab 與香港大學的團隊推出 RE-Edit,正是針對這個盲點而設計的基準測試。

RE-Edit 全名為 REasoning-aware image Editing,包含 1,000 個精選樣本,並劃分成五個推理維度:物理(physical)、環境(environmental)、文化(cultural)、因果(causal)和指涉(referential)。每一條題目都刻意設計成「畫面睇落合理,但忽略了潛在邏輯」的情境,用以測試模型能否理解指令背後的隱含限制。

配合基準,團隊亦提出輕量級的後修補方案 EditRefine。做法是先讓多模態大型語言模型(MLLM)診斷初稿失敗之處,再產生帶有思維鏈(chain-of-thought)的重新編輯指令,由原本的擴散模型執行。這個「診斷—重做」流程可以套用在 FLUX.2 Dev、Qwen-Image-Edit 等不同執行器上,毋須重新訓練底層模型。

整套系統以 YAML 設定檔驅動,輸出會保留原圖、初稿、EditRefine 修補稿、chain-of-thought 文本以及重新編輯指令,方便逐個維度比對。對從事 AI 圖像編輯研究、產品測試或內容審核的團隊而言,RE-Edit 提供了一個可量化邏輯錯誤的測試場;對一般讀者來說,它提醒我們「改張相」背後其實牽涉文化、物理因果等多重常識。

重點摘要

  • 1,000 個樣本橫跨五個推理維度,專門捕捉「畫面合理但邏輯犯駁」的失敗案例。
  • EditRefine 以 model-agnostic 方式插入推理步驟,可搭配 FLUX.2 Dev、Qwen-Image-Edit 等不同模型使用。
  • 評審採用 Qwen3-VL-30B 對 IF、SC 等指標作自動化判分。
  • 設定檔以 YAML 管理,輸出包含初稿、refined 稿、CoT 文本與重編指令,方便追溯。
  • 適合研究 AI 圖像編輯、內容審核及多模態推理的團隊作為統一基準。

GitHub: https://github.com/Yixuan-Ding-ZJU/RE-Edit

Categories: 開源, 香港大學, 影像處理, 框架

LoomVideo:阿里巴巴 5B 模型挑戰統一影片生成

architecture

LoomVideo 由北京大學與阿里巴巴聯合發布,主打「統一多模態輸入的影片生成與編輯」,把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數,且為了加入來源影片條件,往往要把所有 token 接在一起,導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位,就是用更小、更快的設計,達到同等甚至更好的效果。

這個項目基於 MLLM(多模態大語言模型)加 DiT(Diffusion Transformer)的組合,並提出三個關鍵設計:Deepstack Injection 從 MLLM 每一層抽取特徵,再透過 cross-attention 注入對應的 DiT 層;Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上,免去 token 拼接的額外負擔;Negative Temporal RoPE 為參考圖片指定負的時間索引,讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務:文生影片、純文字指令編輯、影片加圖片加文字的指令編輯,以及多張參考圖的條件生成,全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現,並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成,論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者,以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo,程式碼亦同步釋出,有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要

  • 5B 參數的統一影片生成與編輯模型,定位比 13B+ 同類更輕量。
  • 以 MLLM + DiT 架構為基礎,並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
  • 支援文生影片、文字指令編輯、影片加圖片文字編輯,以及多圖片條件生成四種任務。
  • 論文聲稱比同級模型快至少 5.41 倍,並在電商與時尚場景表現突出。
  • 模型與程式碼已公開,方便研究者與開發者快速試用與改進。

GitHub: https://github.com/MSALab-PKU/LoomVideo

項目: https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

DRDD:用兩階段拆解擴散模型,更省數據的圖像轉譯方案

Main figure

圖像到圖像轉譯(Image-to-Image Translation, I2I)涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務,傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models(DRDD)嘗試用一套架構同時處理這些任務,並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段:第一階段負責加入雜訊,達到所謂的「域調和」(domain harmonization)與流形抬升(manifold lifting);第二階段則在固定雜訊下做決定性的殘差擴散,專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題,因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練,DRDD 在配對數據稀缺時仍能保持表現,這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試,涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集,並使用 LPIPS 等指標評估。論文亦提供理論與實證分析,說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師,尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上,以及 Conda。預訓練權重可從 Quark 或其他途徑取得,並依說明放入 ./pretrained_models 目錄。

重點摘要:
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段,保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據,降低對配對樣本的依賴。
– 相容主流擴散模型,可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構,鼓勵社群以現有擴散骨幹(如 DDPM 系列)進一步測試與延伸。

GitHub: https://github.com/HKU-HealthAI/DRDD

Paper: https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

GGT-100K:用十萬對真實影像 拓寬圖像修復的泛化邊界

GGT-100K logo

過去訓練圖像修復模型時,開發者往往受限於合成數據與真實場景之間的差距;模型在實驗室數據集表現亮眼,遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生,由香港理工大學 OPPO 研究院共同推出,主打從 MFM(Multimodal Foundation Models)直接生成十萬對 LQ-HQ 配對資料,覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth(GT)」,再利用 MFM 推演對應的低品質版本,省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint,研究者只需在自有的修復模型上加掛 LoRA 或重新微調,就能測試跨域泛化效果;對工程團隊而言,等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

  • 提供十萬對從 MFM 生成的 LQ-HQ 影像配對,涵蓋多元真實退化情境。
  • 內建 baseline 訓練與推論程式碼,支援主流修復模型微調。
  • 透過 Generative GT 策略,免除傳統人工蒐集配對的高昂成本。
  • 數據集可從 Hugging Face 或百度雲下載,附完整 Construction Process 說明。
  • 實驗結果顯示,模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現,作者在多個 SOTA(State-of-the-Art)MFM 上進行了修復評估,結果顯示加入 GGT-100K 訓練後,模型對未見過的真實退化樣本有更佳的適應力;具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發,或是想評估自家模型在真實世界表現的團隊,這份開源資源值得花時間一試。

GitHub: https://github.com/PolyU-VCLab/GGT-100K

項目: https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

用 PEEK 幫影片挑重點影格:省時又精準

Stage 1: privileged teacher scoring

處理長影片時,視覺語言模型 (VLM) 一次只能看幾幀畫面,於是「要挑哪幾幀」就成了影片標題生成的瓶頸。PEEK 這個開源項目正是為了解決這個問題:它是一個 query-free 的影格挑選器,專為低預算 (low-budget) 影片標題任務而設計。

PEEK 的運作分為兩階段。第一階段由凍結的 SigLIP2 SO400M patch14 384 雙編碼器擔任教師模型,利用真實標題與每一幀計算餘弦相似度,並做最小最大正規化 (min-max normalization),產生幀級相關性分數。第二階段是一個 2 層 Transformer 學生模型,接收凍結的 MobileCLIP2-S0 幀嵌入,以 ListMLE 排序損失 (listwise ranking loss) 學習重現教師的排序。推論時學生模型只需看畫面,無需任何標題或文字編碼器介入。

選幀策略採用「分組取最大」(stratified argmax):將影片均分成 k 個時間區段,每段挑出分數最高的幀,以兼顧時間分佈。當 k=1 時則退化為全影片取最大。

實驗結果顯示,單一在 ActivityNet 訓練的 PEEK 權重在多個影片標題 VLM 上,於一幀與兩幀設定的 CIDEr 分數均優於均勻取樣,且預算越緊、省下的時間越多。論文亦報告 PEEK 在標題生成流程中僅增加 5.2% 時間,相比 CSTA 的 65.4% 與 MaxInfo 的 211.9% 更為輕量。

適合需要快速處理大量影片的研發團隊、影片摘要系統開發者,以及想為現有 VLM 加上智能取樣的研究者。倉庫已提供教師分數生成、蒸餾訓練、單段影片推論 CLI 與 Python API,並於 Hugging Face 釋出 ActivityNet 訓練的 base 權重。

重點摘要

  • 問題:VLM 處理影片時,如何在極少影格預算下挑出最有資訊量的畫面。
  • 方法:以 SigLIP2 為教師產生排序標籤,再以 MobileCLIP2 + 2 層 Transformer 學生模型做知識蒸餾 (knowledge distillation)。
  • 推論:無需文字查詢,僅靠視覺證據;採用 stratified argmax 兼顧時間覆蓋。
  • 效率:額外開銷僅約 5.2%,遠低於 CSTA 與 MaxInfo 等自適應方法。
  • 資源:開源訓練與推論代碼,並提供 Hugging Face 預訓練權重。

GitHub: https://github.com/momentslab/peek

項目: https://www.killian-steunou.com/peek/

Categories: 開源, 影像處理, 模型, 模型訓練, 視覺模型, 框架

minWM:由影片生成走向 World Model

Repository image for shengshu-ai/minWM

minWM 的定位很清楚:它不是再提供一個新模型,而是把建立 video world model 的整條流程拆開,讓人由 bidirectional T2V(Text-to-Video)或 TI2V(Text-and-Image-to-Video)基礎模型,一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說,這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」,而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程,並提供 example data、runnable scripts、Claude Skills 與新手知識整理,方便你先跟一次標準流程,再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題,在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作,背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制;minWM 正是把這些環節模組化,並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

  • 支援 4-step DMD inference,並提到 multi-GPU sequence parallelism
  • 可用 pose strings 或 JSON 檔控制 camera trajectory
  • 提供 debug-world-model,整理 loss NaN、jitter、camera drift 等常見失敗模式
  • 提供 integrate-new-backbone,示範怎樣接入新的 video DiT
  • 參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B,亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式,也把團隊累積的排錯經驗與 Claude 協作流程寫進項目,令研究者或工程人員不只看到結果,還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models,並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程,若你想比較單一模型跑分,這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub: https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

CollectionLoRA:把多個效果 LoRA 濃縮成一個

Repository image for Qwen-Applications/CollectionLoRA

CollectionLoRA 是一個針對 LoRA 管理成本而設的項目,核心做法是用 multi-teacher on-policy distillation,將多個效果 LoRAs 的概念,以及 few-step generation 能力,一次過蒸餾進單一 LoRA。對一般使用者來說,意思就是原本要為不同效果切換或串接多個 adapter,現在有機會改用一個整合版本處理,流程會更簡潔。

使用這個項目時,重點不是由零開始訓練,而是先按項目提供的 ckpt/ 結構放好權重,之後以 50_in_1/ 作推理用途。倉庫亦提供公開的 training and inference code,而 data/manga_tone/ 內有起步用的 teacher LoRA 和示範訓練資產,方便了解整個資料與模型配置方式。

它解決的問題相當明確:當效果 LoRA 數量愈來愈多,部署、切換與疊加都會變得麻煩,配合 acceleration modules 時,還可能出現互相干擾。CollectionLoRA 嘗試把「多效果」與「少步數生成」合併到同一個 LoRA,這比單純收藏大量 LoRA 更像是重新整理整個工作流。

項目公開的重點包括幾個方向:
– 可把 50→1,甚至 180→1 的效果教師整合到單一 LoRA
– 在 EffectBench 上,文中稱其於 8 NFE 下可取得較高 VSA 與較低 BCR
– 支援 zero-shot 的 A ⊕ B 組合效果,推理時可配對兩個已訓練教師,無需額外訓練
– 已開放 training and inference code,但 model weights 仍標示為未全面開放

這個項目較適合會接觸生成效果控制、需要管理大量 LoRA 的研究者與開發者,也適合想減少部署複雜度的團隊。若你關心的是把多種風格或效果整合成較易分發的模型形式,CollectionLoRA 展示的方向很有參考價值;不過現階段公開資訊主要集中在框架、指標與示範資產,完整權重供應情況仍要留意項目後續更新。

GitHub: https://github.com/Qwen-Applications/CollectionLoRA

Categories: 開源, 阿里巴巴, 影像模型, 影像處理, 視覺模型, 框架

CNS 點樣改良擴散取樣效率

CNS teaser

Colored Noise Sampling(CNS),核心想法是按影像頻率分配雜訊,而不是每一步都加入同樣的 white noise。對非研究背景讀者來說,可以把它理解成:模型早段已經大致砌好輪廓,就不必再把力氣花在這些部分,反而集中補足仍未成形的細節。

它要解決的問題很明確:傳統 Stochastic Differential Equations(SDE)取樣器會平均地把隨機能量灑向所有頻段,但 diffusion models 本身有 spectral bias,低頻結構較早完成,高頻細節較後才逐步補上。CNS 會利用預先計算好的 gamma matrix,判斷每個頻段在不同時間步的完成程度,再把雜訊導向仍然欠缺結構的部分。

這個設計吸引之處,在於它屬於 training-free,而且是 plug-and-play sampler substitution。換句話說,不用重新訓練原有模型,不用增加步數,主要改動只在 noise injection;對已經有生成流程的人,這比重建整個項目方便得多。

  • 保留原模型與原取樣步數,只改取樣時的雜訊策略
  • 依靠 gamma matrix 做頻率感知的動態分配
  • 支援多種架構,文件提到 SiT、JiT、FLUX
  • 在 ImageNet-256 的 FID 結果有明顯改善,尤其 unguided 設定較突出

項目提供了較具體數字:SiT-XL/2 的 unguided FID 由 8.26 降到 6.27,JiT-B/16 由 32.39 降到 26.69,JiT-H/16 由 11.88 降到 8.31;使用 Classifier-Free Guidance 時也有一致改善。這些結果顯示,CNS 並非單靠理論包裝,而是在多個模型上都有可量化的收益。

這項目較適合已經在研究或測試 diffusion models 生成品質的人,例如想比較 ODE 與 SDE 取樣差異、希望在不改訓練成本下提升輸出表現的開發者。若你只想快速理解概念,重點就是:CNS 不是換模型,而是把每一步加入的隨機能量分配得更精準。

GitHub: https://github.com/hadardavidson/colored-noise-sampling

Categories: 開源, 影像處理, 框架

Page 2 of 17
1 2 3 4 17