Video

LTX-2.3 Black-Magic 黑暗補景 LoRA

2026 年 7 月 31 日

拍到過暗片段時，最直接嘅痛點係一加光就爆雜訊、細節仍然唔見。LTX-2.3-Black-Magic-LoRA 明確建基於 Lightricks/LTX-2.3，以 adapter 形式提供 IC-LoRA，定位唔係忠實還原訊號，而係替黑位內容做具時間連貫性嘅生成式重建，所以更接近 video-to-video 視覺特效模型，而唔係傳統 low-light enhancement。

取捨亦講得好清楚：當原始畫面資訊太少，模型會「推斷」暗處可能有咩，而唔係保證還原真實場景。呢種做法對氣氛鏡頭、夜景、舞台火光、森林或室內昏暗片段有吸引力，因為畫面觀感會比單純提亮更自然；但用喺證據保存、監控取證或要求真實性的工作，就要非常審慎。

項目提供嘅技術資訊相對精簡。已知它使用 diffusers，pipeline tag 係 video-to-video，模型檔案列出 black-magic-ic-lora-450.safetensors，而名稱中標示對應 LTX-2.3 22B。不過頁面截圖內容未見上下文長度、GGUF 格式量化、mmproj、llama.cpp、Ollama、LM Studio、MTP draft speculation、v2 更新紀錄、檔名變更或 chat template 說明，代表呢頁並唔係本地 LLM 部署型模型卡，相關部分無法確認。

基礎模型已明示為 Lightricks/LTX-2.3，關係為 adapter，而唔係完整重訓主模型。
能力核心係 shadow reconstruction，重建暗部觀感，唔等於忠實還原原始訊號。
標籤集中在 ltx-video、low-light、generative-video、vfx、lighting，用途相當聚焦。
已知檔案只有 black-magic-ic-lora-450.safetensors。

同一般曝光修正最大分別，在於接受「畫面不夠資料時需要生成補完」呢個前提。使用者應該將它視為風格化且偏後期製作取向嘅影像模型；想改善觀感、保住影片連續性，它有明確價值，但要用作真實場景還原，頁面本身已經劃清界線。

項目主頁 · 模型

Categories: 開源, NVIDIA, Video, Image, Python, 視覺模型, LTX

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

Sol-Attn：免訓練稀疏注意力影片生成加速達 2.1 倍

2026 年 7 月 30 日

影片生成模型愈來愈強，但推理速度依然是開發者和創作團隊最常卡住的地方。NVIDIA Research 提出的 Sol-Attn，正正針對這個矛盾：它把「訓練用嘅成本」同「推理時嘅效率」分開處理，讓預訓練模型無須重新訓練就可以直接加速。

Sol-Attn 屬於免訓練（training-free）嘅稀疏注意力機制，做法是動態計算一個 query 相關嘅閾值，即場篩走低貢獻嘅注意力區塊，同時把未選中嘅分數重用做近似補償，整個過程喺一次 online-softmax 內完成。換句話講，它毋須事先計好一張路由表，亦唔會直接丟棄被跳過嘅區塊，因此能保留長尾分佈對最終畫面嘅影響。

喺 Wan 2.1、Hunyuan 1.5、LTX 2.3、Bernini 等多個主流模型上，Sol-Attn 都做到約 2 倍嘅速度提升，同時畫質幾乎唔受影響。若配合 Sol-Engine 中其他加速技巧，仲可以推到 5 倍嘅端到端加速。對於要跑長影片、做後製編輯，或者本地有限顯示卡環境嘅使用者來說，呢個幅度算係幾實用嘅改進。

對比以往「離線先揀一次、再丟棄」嘅做法，Sol-Attn 最大嘅差異在於即場判斷同重用機制。讀者如果本身就喺度搵方法縮短生成等待時間，又唔想額外花資源微調模型，呢套方案值得留意。

項目主頁 · GitHub

Categories: NVIDIA, Video, Image, 模型訓練, 視頻模型, LTX

ViMax 把影片生成變成多代理流程

2026 年 7 月 29 日

直接由文字生成影片，最易出問題的通常不是畫面夠不夠靚，而是故事走向會散、鏡頭難連貫、角色設定前後不一。ViMax把這些環節拉回工作流處理：它屬於 Agentic Video Generation 類型的開源項目，用多個 Agent 分別扮演 Director、Screenwriter、Producer 與 Video Generator，目標是把影片生成由單次出圖，變成可規劃的多步驟流程。

這種取向的分別，在於它不只追求「一句提示詞出片」，而是先把敘事、鏡頭與製作安排拆開，再交回生成模組執行。對內容創作者、想做短片原型的團隊，或者研究多代理協作點樣落地到視頻模型工作流的人，這個項目會較有參考價值；但儲存庫提供的資訊目前偏簡短，未見完整測試結果、部署細節或清晰的安裝流程。

從名稱與描述判斷，ViMax較像一個協調層或框架，而不只是單一視頻模型。它想補的是影片生成裡最難靠單一模型穩定完成的前置規劃，因此價值未必在最終某一幀畫質，而在於整段片能否保持節奏與結構。不過，原始資料未交代它串接哪些底層模型、怎樣處理角色一致性，亦未提供性能指標，現階段較適合先當成研究方向與工作流設計來理解。

把影片生成拆成 Director、Screenwriter、Producer、Video Generator 多個 Agent
重點放在規劃與協作，不只是單次提示詞生成
適合研究多代理、多步驟視頻製作流程的人參考
儲存庫描述很短，暫時未見完整安裝、部署與評測資訊

ViMax最吸引人的地方，是它把「生成影片」理解成一條需要分工的製作鏈，而不是單一模型一次完成所有事。現有資訊仍不足以判斷成品穩定性或生產可用度，但作為開源方向，它清楚對準了多模態模型在長段影片敘事上的核心難題。

GitHub

Categories: 開源, 香港大學, Agentic, Video, AI productions

CrossView 用 3D 數值控制鏡頭：LTX-Video 跨視角生成

2026 年 7 月 28 日

想將一段現成影片改成另一個鏡頭角度，又唔想主體變樣或空間關係散掉，這正是此模型處理的問題。它明確基於 Lightricks/LTX-2.3，屬於 LTX-Video 2.3 22B 的 IC-LoRA 微調，重點不是純文字改鏡頭，而是用輸入影片加相機偏移數值，重建同一場景的新視角。

頁面提供的做法幾清楚：模型同時接收兩段參考影片，一段是由 CrossViewWarp ComfyUI node 產生的 depth-warp 影片，用來保留幾何結構；另一段是原始影片，用來維持主體 identity。這種雙參考分工，反映它優先解決「換角度後仍要似原片」的取捨，比單靠 prompt 描述鏡頭更穩定。

它與同作者的 CrossView Prompt LoRA 差異亦很直接：後者由文字提示選鏡頭角度，這個版本改為輸入 azimuth / elevation / distance 等數值，所以鏡頭控制更精確。頁面亦提到可以在 3D orbit picker 加 keyframes，逐幀插值相機姿態，代表不只可做固定新視角，也可做繞拍式 camera move。

基礎模型已標明為 Lightricks/LTX-2.3，授權為 Apache-2.0。
主要檔案是 LTX2.3-22B_IC-LoRA-CrossView-Warp_v0.9_18000.safetensors。
依賴 ComfyUI-CrossViewWarp 與 Depth Anything V2 節點提供 depth 輸入。
示例包含固定視角偏移與 keyframed 軌道鏡頭，並說明輸出來自真實影片而非合成訓練片段。

這個項目目前仍是 PoC，它較偏向 ComfyUI 工作流驗證，而不是通用本地大語言模型部署。

模型

Categories: 開源, ComfyUI, Video, 3D, AI productions, 視覺模型, 視頻模型, LTX

Qwen Image 3 Studio 一站式玩轉文字、影像與工具

2026 年 7 月 27 日

想喺同一個介面完成對話、睇圖、生成影像、處理文件，同時再配合網頁搜尋同工具調用，Qwen Studio 走的是整合式 AI 工作台路線。對一般用家而言，重點唔係逐個模型切換，而係可以較順手地喺同一流程內完成理解、生成同操作。

現有資料顯示，Qwen Studio 涵蓋 chatbot、image and video understanding、image generation、document processing、web search integration、tool utilization 同 artifacts。這種組合對內容整理、資料查找、讀圖問答，以至需要一邊對話一邊調用工具的工作流較有吸引力，因為中間少咗介面切換同上下文斷裂。

把聊天、讀圖、影片理解同生成能力集中喺同一入口
支援 document processing，適合處理文件內容同資料整理
結合 web search integration，可補充即時或外部資訊
包含 tool utilization 同 artifacts，方便延伸到更完整操作流程

目前公開內容偏向功能層面的簡介，未見更詳細的模型結構、效能指標或評測結果，所以較適合先將它理解為 Qwen 生態入面的一個綜合使用介面，而唔係單一模型發表。對想快速試用多模態模型、工具調用同線上服務整合的人，呢類入口通常更容易上手。

項目主頁

Categories: 阿里巴巴, Qwen, Video, Image, 影像模型

Sana 把高解像生成壓到快 100 倍

2026 年 7 月 26 日

高解像圖片同影片生成最常見的卡位，不是效果做不到，而是算力、延遲同部署成本太難接受。NVlabs/Sana 屬於生成模型代碼庫，集中處理這個矛盾：在維持高解析輸出的前提下，把訓練與推理做得更省、更快，並且一路延伸到圖片、影片、世界模型等多條分支。

這個項目唔係單一模型，而是一個家族。SANA 主打最高到 4K 的 text-to-image，README 直接給出「比 Flux-12B 細 20 倍、快 100 倍」的定位；SANA-1.5 進一步處理訓練期與推理期的 compute scaling；SANA-Sprint 則把重點放在 one/few-step 生成，官方數字提到 H100 上 1024px 圖片可做到 0.1 秒級。取向很清楚：不是一味追最大模型，而是用效率換取更可部署的生成流程。

影片部分同樣值得留意。SANA-Video 與 SANA-Video 2.0 把焦點放在 720p 長序列生成，做法上用 hybrid linear attention 配合 Attention Residuals，目的是減少 full-softmax attention 的成本，同時盡量保住畫質與長序列表達能力。公開資料提到 SANA-Video 2.0 在單張 H100 上，720p/5 秒影片可做到 13.06 秒，VBench 總分 84.30，也強調比 Wan 2.2 14B 有大幅速度優勢，但這類數字仍要連同硬件、步數與設定一齊理解。

同一庫內含 SANA、SANA-1.5、SANA-Sprint、SANA-Video、SANA-WM、SANA-Streaming、Sol-RL
提供完整 training 與 inference pipeline，唔止展示模型效果
可透過官方 demo、Hugging Face、ComfyUI 整合去理解生成表現與部署方向
重點不是極限參數量，而是高解像生成的速度、成本同可擴展性

部署與測試路線相對清晰：已有官方文件、網頁 demo、Hugging Face 集合，亦見到 ComfyUI、SGLang、Replicate 等接點，代表它較適合研究團隊、影像工作流開發者，以及想把高解像生成放進產品流程的人。 SANA-WM 的 2.6B controllable world model、6-DoF camera control，同 Sol-RL 的加速收斂能力，則顯示這個項目不只做靜態出圖，而是朝更完整的生成系統推進。

項目主頁 · GitHub

Categories: 開源, NVIDIA, ComfyUI, Stable Diffusion, Video, Image, AI productions, txt2img, 模型訓練, 世界模型

TrajLoc 把路線描述對準衛星圖

2026 年 7 月 26 日

A trajectory can be queried as dense video or as abstract language — both retrieve the same satellite tile.

只靠一張街景相去配對衛星圖，遇到轉彎、路口相似、視角受限時好容易失手；TrajLoc改為追蹤整段移動路線，將街景影片、自然語言路線描述，或者兩者結合後對應到帶地理標記的衛星瓦片。它屬於跨視角 geo-localization 模型連同 benchmark 項目，處理的是「把連續路徑準確放回地圖」這個問題。

現有 cross-view 資料多數停留在 single-image、video-only 或 text-only 範式，作者認為這樣會拆散同一條路線入面本來互相補強的時序線索與語意線索，因此一併推出 SeqGeo-VL。呢個 benchmark 收錄 38,863 組對齊的 video-text-satellite triplets，並有 91.8% human verification pass rate，重點不是再加大資料量，而是把 sequential 同 linguistic 兩種證據放入同一任務。

TrajLoc沒有另起一套龐大時序架構，而是由 pretrained CLIP ViT-L/14 延伸成 video、text 同 satellite encoders，再用 co-training curriculum 將三種查詢模式放入同一個表示空間。作者另外加入 TrajMod，將路線幾何資訊 tau={(Δx_i, Δy_i, θ_i)} 轉成 FiLM 的 scale/shift 參數，直接調節 query embedding；做法比單靠提示詞更明確，亦保留 frozen encoders 的可重用性。

支援 video、plain language、video+text 三種查詢方式
SeqGeo-VL 是首個同時包含 sequential 與 linguistic cross-view benchmark
TrajMod 只用 waypoint offsets 與 headings，不靠 map 或 POI metadata
項目提供 agent-ready tool interface、persistent Python API 同 JSON CLI

從示範與說明看，TrajLoc的定位很清楚：它不是通用多模態聊天模型，而是給 spatial reasoning、戶外機械人、導航研究同 multimodal agents 調用的專門工具。225 ms 的示例檢索速度對互動式流程有吸引力，但目前公開資訊主要集中在 benchmark 與檢索能力，部署前仍要留意資料覆蓋範圍、地區泛化，以及自己的工作流是否真有影片或路線文本可供查詢。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Agentic, API, Video, Image, AI productions, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

Self Gradient Forcing 補長影片一致性缺口

2026 年 7 月 26 日

生成影片拉長到幾分鐘之後，角色樣貌、鏡頭方位同場景佈局愈來愈唔穩，往往不是畫質問題，而是模型早段寫入的歷史記憶愈來愈幫不到後面幀。Self Gradient Forcing（SGF）屬於訓練方法項目，核心是替自回歸影片擴散模型補回一段原本缺失的 context-gradient path，處理 long-video extrapolation 時常見的 identity drift、scene break 同 temporal instability。

作者點名現有做法多建基於 Self Forcing：模型用自己 rollout 出來的歷史作訓練，的確能減少 exposure bias，但 historical key-value cache 在後續生成裡只是 frozen rollout state，未能讓未來幀的損失回頭教早前的記憶應該怎樣寫得更有用。SGF 的做法是 bounded two-pass replay，第一輪先照推理方式無梯度 rollout，第二輪只重建抽樣步驟所需的 context-gradient，避開完整長序列反向傳播的成本，同時保住 causal memory 的可訓練性。

項目現時已放出訓練碼、推理碼同 checkpoint，底層接到 Wan2.1-T2V-1.3B 與 Wan2.1-T2V-14B，亦依賴 Causal-Forcing 的初始化權重。配置分成 framewise 同 chunkwise 兩路，預設推理可生成 963 個 latent frames，解碼後約 240 秒、16 fps，環境足夠時會用 8 GPUs，否則退回單卡串行生成；這個門檻說明它較接近研究與算力密集型內容生產流程，而不是輕量即開即用工具。

針對 Self Forcing 的 historical context-gradient gap，而不是單純調參延長影片
用 bounded two-pass replay 補監督，取捨在於訓練更複雜，但比全序列回傳梯度更可控
同時提供 framewise 與 chunkwise 設定，方便比較不同長片生成路線
依賴 Wan 基座模型與 Causal-Forcing 初始化，部署前要先備好對應權重

就已公開描述來看，SGF 的價值不在另起一套全新生成架構，而是在保留 native autoregressive training objective 的前提下，修正自生成記憶無法被未來損失有效監督的缺口。對研究 long-horizon video generation、需要單一 prompt 與 seed 維持數分鐘敘事一致性的團隊，這個項目有相當清晰的參考價值。

項目主頁 · GitHub · Paper

Categories: 開源, Video, 模型訓練, 視頻模型

Page 2 of 12

« Previous 1 2 3 4 … 12 Next »