Image

RefCaptioner：參考圖綁定對應影片字幕

2026 年 8 月 1 日

RefCaptioner grounds local caption phrases to relevant reference images while rejecting distractors.

做影片描述時，最易出錯唔係句子寫得唔夠長，而係講到某個人、物件或角度時，無法交代文字究竟對應邊張參考圖。RefCaptioner屬於影片字幕生成模型項目，集中處理 multi-reference image-grounded video captioning：一邊保留細節與事實準確度，一邊將局部描述同候選參考圖明確綁定。

RefCaptioner 不只是把所有參考圖塞入輸出，而係會挑選真正有用的圖，將對應片語加上 <Image_N> 標籤，遇到同一主體的不同視角又會做分組，影片根本無出現的內容就直接略過。呢種設計減少錯配同誤導，比起只追求流暢字幕，更著重可核對性。

技術上，RefCaptioner用兩段式 post-training。先以 capability-preserving SFT 學會 grounded caption 格式，同時盡量保留一般 captioning 能力；之後再用 Hierarchical Coverage-Discounted GRPO（HCD-GRPO）同時優化 factual-caption 分支與 multi-reference grounding 分支，並加入 deterministic guards，避免產生格式錯誤或指向不存在圖片的標籤。

提供官方 inference pipeline、SFT 資料準備、HCD-GRPO 訓練同 MRVBench evaluation pipeline
已公開論文與模型權重，亦有 Data Format、Training、Evaluation 文件可跟進
環境分成主環境與 GRPO 專用 veRL/vLLM 環境，代表訓練流程較完整但配置亦較講究
適合做影片理解、資料標註、多鏡頭人物敘述同需要檢查圖文對應的研究團隊

部署與測試：推理、SFT、評估共用主環境，GRPO 另設一套環境，並且要對指定 veRL 版本套用 patch，反映佢較偏研究型工作流，而唔係下載即用的小工具。效能數字在提供的內容未見完整展開，但既然已附 MRVBench evaluation pipeline，至少表示作者有把「字幕寫得對」同「圖文對得準」分開檢驗，較適合重視可解釋輸出的團隊採用。

GitHub · 模型

Categories: 開源, Agentic, Video, Image, 影像模型, 模型, 模型訓練

NVIDIA FastGen 平行解碼的加速擴散生成訓練

2026 年 7 月 31 日

由 NVIDIA 團隊主導，Weili Nie、Julius Berner、Chao Liu 與 Arash Vahdat 是署名作者，核心貢獻者亦包括 Weili Nie、Julius Berner、Chao Liu。這個項目放在 NVlabs 名下，定位很明確：它不是單一生成模型，而是用 PyTorch 建成的訓練框架，集中處理 diffusion models 的加速與蒸餾，讓影像與影片生成可以用較少步數完成推理，同時保留大規模訓練能力。

與一般只提供某一種加速技巧的研究代碼不同，FastGen 把 consistency models、distribution matching distillation、self-forcing、KD 等方法放進同一套結構，並且覆蓋 T2I、I2V、V2V 多種任務。這種設計的價值，在於研究團隊可以在相近配置與資料流程下比較不同蒸餾路線，而不是每試一種方法就重砌整套訓練管線。

基本理解方式：代碼庫包含 datasets、methods、networks、trainer 與 scripts，顯然以訓練、推理、評測三部分分開整理；環境方面建議用 Docker，也保留 conda 安裝路線，並支援 W&B 記錄。不過公開資訊未有列出完整 quick start 細節、現成模型清單或基準成績，現階段較像面向研究與工程團隊的基礎框架，而不是開箱即用的消費級生成工具。

Prompt:
4 NFE PDD on Wan2.1 14B: A joyful child, 
with a big smile and arms spread wide, 
swings energetically on a rusty old swing set in a sunlit backyard. The swing set, with peeling paint and creaking chains, 
contrasts against the vibrant green grass and blooming flowers surrounding it. 

The child's laughter echoes as they swing higher and higher, 
their feet barely touching the ground at the bottom of each arc.
 
The scene is captured from a low angle, 
emphasizing the height of the swings, 
with the sun casting a warm glow over everything.
Medium shot focusing on the child and the swing set.

屬於框架型項目，處理的是 diffusion models 如何更快生成，而不只是再訓練一個新模型
支援 ≥10B 參數的大規模訓練，較適合有多卡資源的團隊
任務涵蓋 T2I、I2V、V2V，對跨模態生成研究較有吸引力
方法層同時納入 consistency models、distribution matching distillation、self-forcing 等路線，方便做橫向比較

配合 NVIDIA 研究頁面的 FastGen-PDD 脈絡來看，這個項目也像是承載後續加速生成方法的底座，尤其面向 image 和 video generation 的 parallel decoding distillation。對想建立自家快速生成訓練流程、測試不同蒸餾策略，或者需要把大型 diffusion 項目整理成可維護代碼庫的團隊，FastGen 的參考價值高；但想直接下載即用、立刻看到完整評測結論的人，現有公開資料仍然偏少。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Image, Python, txt2img, 視頻模型, 語音

MiniMax H3 頂級高清影片生成

2026 年 7 月 31 日

做影片內容時，最麻煩往往不只是「生成一段片」，而係點樣令角色、鏡頭起承轉合同參考素材保持一致。MiniMax H3 屬於多模態影片模型，處理的正正係呢類控制力需求：除咗 Text-to-Video，亦支援以首幀、尾幀、參考圖片、參考影片同音訊去引導生成結果。

對內容團隊、短片創作者同需要自動化出片流程的開發者而言，呢個項目的吸引力在於輸入方式夠彈性。你可以由一段 prompt 起步，也可以加入第一張或最後一張畫面去約束開場與收尾；當需要保留人物、動作、鏡頭風格、聲線或剪接節奏，則可改用 Reference Generation。

MiniMax Just Dropped a "Seedance Killer" with a Twist

Watch this video on YouTube

支援 Text-to-Video、First/Last-Frame Image-to-Video、Reference Generation
統一理解 text、image、video、audio，多種素材可混合輸入
輸出最高為 2K，片長 4 至 15 秒，只接受整數秒
參考輸入上限包括最多 9 張圖片、3 段影片、3 段音訊，混合檔案總數上限 12

規格上，MiniMax H3 支援常見長闊比，圖片、影片與音訊都有清晰的格式及大小限制，例如影片可用 H.264/AVC、H.265/HEVC，圖片可用 JPG、PNG、WEBP，音訊則支援 WAV、MP3。音訊不能單獨提交，必須配合圖片或影片一齊使用；而較大的素材更建議用 URL 方式傳入，避免 API request body 超出 64 MB。

現有資料集中在能力範圍、輸入限制同 API 使用方向，能夠幫你快速判斷適唔適合接入工作流。

項目主頁

Categories: API, Video, MCP, Image, Audio, 多模態模型, 視頻模型, 語音, MiniMax

LTX-2.3 Black-Magic 黑暗補景 LoRA

2026 年 7 月 31 日

拍到過暗片段時，最直接嘅痛點係一加光就爆雜訊、細節仍然唔見。LTX-2.3-Black-Magic-LoRA 明確建基於 Lightricks/LTX-2.3，以 adapter 形式提供 IC-LoRA，定位唔係忠實還原訊號，而係替黑位內容做具時間連貫性嘅生成式重建，所以更接近 video-to-video 視覺特效模型，而唔係傳統 low-light enhancement。

取捨亦講得好清楚：當原始畫面資訊太少，模型會「推斷」暗處可能有咩，而唔係保證還原真實場景。呢種做法對氣氛鏡頭、夜景、舞台火光、森林或室內昏暗片段有吸引力，因為畫面觀感會比單純提亮更自然；但用喺證據保存、監控取證或要求真實性的工作，就要非常審慎。

項目提供嘅技術資訊相對精簡。已知它使用 diffusers，pipeline tag 係 video-to-video，模型檔案列出 black-magic-ic-lora-450.safetensors，而名稱中標示對應 LTX-2.3 22B。不過頁面截圖內容未見上下文長度、GGUF 格式量化、mmproj、llama.cpp、Ollama、LM Studio、MTP draft speculation、v2 更新紀錄、檔名變更或 chat template 說明，代表呢頁並唔係本地 LLM 部署型模型卡，相關部分無法確認。

基礎模型已明示為 Lightricks/LTX-2.3，關係為 adapter，而唔係完整重訓主模型。
能力核心係 shadow reconstruction，重建暗部觀感，唔等於忠實還原原始訊號。
標籤集中在 ltx-video、low-light、generative-video、vfx、lighting，用途相當聚焦。
已知檔案只有 black-magic-ic-lora-450.safetensors。

同一般曝光修正最大分別，在於接受「畫面不夠資料時需要生成補完」呢個前提。使用者應該將它視為風格化且偏後期製作取向嘅影像模型；想改善觀感、保住影片連續性，它有明確價值，但要用作真實場景還原，頁面本身已經劃清界線。

項目主頁 · 模型

Categories: 開源, NVIDIA, Video, Image, Python, 視覺模型, LTX

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

ReDesign 把平面圖轉為可編輯設計

2026 年 7 月 31 日

設計原檔遺失之後，最麻煩唔係畫面睇唔到，而係改唔到字、拆唔開圖層、調唔到前後次序。ReDesign屬於Agentic取向的研究型工具，目標係由單張 raster image 重建出可編輯設計結構，輸出成帶有文字、向量形狀、群組同 z-order 的 JSON hierarchy。

它的判斷方式唔係一次過猜完整個版面，而係將設計當成 layer tree，由大區域開始逐層拆細，再用 verifier 檢查每一步成唔成立。呢個取向比起只做 OCR、只做分割，或者直接做多圖層分解更完整，代價就係系統較重，亦要配合多個視覺工具同較高 GPU 記憶體，當中 Qwen 相關 worker 官方已寫明大約要對應 55 GB 級別資源先容易跑得順。

相關模組之間的分工幾清楚：VLM controller 負責揀動作，文字會交由 PaddleOCR、字體辨識、Hi-SAM 同 LaMa 處理；物件與圖層則會用到 Qwen-Image-Layered、GroundingDINO、SAM 2、connected-component analysis 同 VTracer。換句話講，呢個項目唔係單一模型，而係把多個模型與工具串成一條可驗證的還原流程，較適合研究設計還原、可編輯圖形生成，或者想將靜態素材重新帶回設計工作流的團隊。

單張平面圖可還原成可編輯 JSON hierarchy
支援文字、向量形狀、圖片、群組與 z-order
採用 coarse-to-fine tree expansion，加上 verifier 修正分支
效能展示基於 Figma-909，指標上普遍優於多個 baseline

評測方面，項目頁面列出 Figma-909 這個 Dataset 數據集，並顯示 ReDesign 在 L1、PSNR、LPIPS、PQ 同 F1 等指標整體領先 baseline，說明它唔只重建外觀，亦較重視元素級別的可編輯性。儲存庫已提供 agent、baseline 同工具後端結構，但它更似一個研究系統而唔係輕量腳本；較值得留意的是多 GPU 分片、平行 worker 同視覺工具的資源安排，較適合有運算環境的研究者或產品團隊深入測試。

項目主頁 · GitHub

Categories: 開源, Qwen, Agentic, Image, 多模態模型, 影像處理, 視覺模型, Dataset 數據集

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

Sol-Attn：免訓練稀疏注意力影片生成加速達 2.1 倍

2026 年 7 月 30 日

影片生成模型愈來愈強，但推理速度依然是開發者和創作團隊最常卡住的地方。NVIDIA Research 提出的 Sol-Attn，正正針對這個矛盾：它把「訓練用嘅成本」同「推理時嘅效率」分開處理，讓預訓練模型無須重新訓練就可以直接加速。

Sol-Attn 屬於免訓練（training-free）嘅稀疏注意力機制，做法是動態計算一個 query 相關嘅閾值，即場篩走低貢獻嘅注意力區塊，同時把未選中嘅分數重用做近似補償，整個過程喺一次 online-softmax 內完成。換句話講，它毋須事先計好一張路由表，亦唔會直接丟棄被跳過嘅區塊，因此能保留長尾分佈對最終畫面嘅影響。

喺 Wan 2.1、Hunyuan 1.5、LTX 2.3、Bernini 等多個主流模型上，Sol-Attn 都做到約 2 倍嘅速度提升，同時畫質幾乎唔受影響。若配合 Sol-Engine 中其他加速技巧，仲可以推到 5 倍嘅端到端加速。對於要跑長影片、做後製編輯，或者本地有限顯示卡環境嘅使用者來說，呢個幅度算係幾實用嘅改進。

對比以往「離線先揀一次、再丟棄」嘅做法，Sol-Attn 最大嘅差異在於即場判斷同重用機制。讀者如果本身就喺度搵方法縮短生成等待時間，又唔想額外花資源微調模型，呢套方案值得留意。

項目主頁 · GitHub

Categories: NVIDIA, Video, Image, 模型訓練, 視頻模型, LTX

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, Dataset 數據集, 清華大學

TBSM 想把一步生成變得更實用

2026 年 7 月 27 日

TBSM one-step samples across handwritten digits, fashion items, CIFAR-10, ImageNet, and text-to-image generation.

生成模型一路追求更快出圖，但速度一提升，訓練往往就變得更複雜。TBSM 把焦點放在one-step generation，而且唔係靠 adversarial critic、teacher queries，亦唔需要 batch-wide all-pairs field 去撐住整個流程；它屬於生成模型方法，處理的是怎樣用較直接的監督，把一次生成做得可訓練又可擴展。

這個項目的判斷重點，在於它不只是講快，而係試圖避開幾條常見路線的代價：GANs 容易受 adversarial min-max objective 影響，AR / Diffusion 要逐步解碼或反覆採樣，Drifting Models 會受 batch 規模拖高成本，diffusion distillation 又常常連帶額外模型、loss 或訓練技巧。TBSM 用 three-body scattering 連到 distributional energy，目標是把分佈層面的學習，壓成 sample-level supervision，令一步生成唔使再背住咁重的系統負擔。

它已展示多種資料與輸出空間，包括 handwritten digits、fashion items、CIFAR-10、ImageNet，以及 1024×1024 的 text-to-image。這代表它較像研究型項目而唔係即裝即用產品：你會先從 paper、示意圖與 quick start 去理解訓練與生成流程，再按資料集或任務類型測試效果，較適合有模型訓練環境的研究團隊、影像生成項目，或者想研究 one-step generation 取捨的人。

核心賣點是一跳生成，不靠多步採樣換品質
設計上避開 adversarial critic、teacher model 同 batch 全配對成本
已展示多個資料集與 text-to-image，覆蓋面比純玩具示範更廣
現階段更接近研究實驗框架，部署前要先消化方法與訓練設定

它吸引人的地方，在於把「生成速度」同「訓練系統複雜度」一齊拉入取捨表，而不只是追某個指標。現有資訊未見完整效能數字與部署細節，表示讀者現階段應把它看成值得追蹤的生成模型研究方向：概念清晰、定位明確，但要判斷是否適合生產環境，仍然要等更完整的評測與開源內容。

GitHub

Categories: 開源, Qwen, Image, txt2img

Page 1 of 10

1 2 3 … 10 Next »