線上服務 – Page 2

LTX-2.3 Black-Magic 黑暗補景 LoRA

2026 年 7 月 31 日

拍到過暗片段時，最直接嘅痛點係一加光就爆雜訊、細節仍然唔見。LTX-2.3-Black-Magic-LoRA 明確建基於 Lightricks/LTX-2.3，以 adapter 形式提供 IC-LoRA，定位唔係忠實還原訊號，而係替黑位內容做具時間連貫性嘅生成式重建，所以更接近 video-to-video 視覺特效模型，而唔係傳統 low-light enhancement。

取捨亦講得好清楚：當原始畫面資訊太少，模型會「推斷」暗處可能有咩，而唔係保證還原真實場景。呢種做法對氣氛鏡頭、夜景、舞台火光、森林或室內昏暗片段有吸引力，因為畫面觀感會比單純提亮更自然；但用喺證據保存、監控取證或要求真實性的工作，就要非常審慎。

項目提供嘅技術資訊相對精簡。已知它使用 diffusers，pipeline tag 係 video-to-video，模型檔案列出 black-magic-ic-lora-450.safetensors，而名稱中標示對應 LTX-2.3 22B。不過頁面截圖內容未見上下文長度、GGUF 格式量化、mmproj、llama.cpp、Ollama、LM Studio、MTP draft speculation、v2 更新紀錄、檔名變更或 chat template 說明，代表呢頁並唔係本地 LLM 部署型模型卡，相關部分無法確認。

基礎模型已明示為 Lightricks/LTX-2.3，關係為 adapter，而唔係完整重訓主模型。
能力核心係 shadow reconstruction，重建暗部觀感，唔等於忠實還原原始訊號。
標籤集中在 ltx-video、low-light、generative-video、vfx、lighting，用途相當聚焦。
已知檔案只有 black-magic-ic-lora-450.safetensors。

同一般曝光修正最大分別，在於接受「畫面不夠資料時需要生成補完」呢個前提。使用者應該將它視為風格化且偏後期製作取向嘅影像模型；想改善觀感、保住影片連續性，它有明確價值，但要用作真實場景還原，頁面本身已經劃清界線。

項目主頁 · 模型

Categories: 開源, NVIDIA, Video, Image, Python, 視覺模型, LTX

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

ReDesign 把平面圖轉為可編輯設計

2026 年 7 月 31 日

設計原檔遺失之後，最麻煩唔係畫面睇唔到，而係改唔到字、拆唔開圖層、調唔到前後次序。ReDesign屬於Agentic取向的研究型工具，目標係由單張 raster image 重建出可編輯設計結構，輸出成帶有文字、向量形狀、群組同 z-order 的 JSON hierarchy。

它的判斷方式唔係一次過猜完整個版面，而係將設計當成 layer tree，由大區域開始逐層拆細，再用 verifier 檢查每一步成唔成立。呢個取向比起只做 OCR、只做分割，或者直接做多圖層分解更完整，代價就係系統較重，亦要配合多個視覺工具同較高 GPU 記憶體，當中 Qwen 相關 worker 官方已寫明大約要對應 55 GB 級別資源先容易跑得順。

相關模組之間的分工幾清楚：VLM controller 負責揀動作，文字會交由 PaddleOCR、字體辨識、Hi-SAM 同 LaMa 處理；物件與圖層則會用到 Qwen-Image-Layered、GroundingDINO、SAM 2、connected-component analysis 同 VTracer。換句話講，呢個項目唔係單一模型，而係把多個模型與工具串成一條可驗證的還原流程，較適合研究設計還原、可編輯圖形生成，或者想將靜態素材重新帶回設計工作流的團隊。

單張平面圖可還原成可編輯 JSON hierarchy
支援文字、向量形狀、圖片、群組與 z-order
採用 coarse-to-fine tree expansion，加上 verifier 修正分支
效能展示基於 Figma-909，指標上普遍優於多個 baseline

評測方面，項目頁面列出 Figma-909 這個 Dataset 數據集，並顯示 ReDesign 在 L1、PSNR、LPIPS、PQ 同 F1 等指標整體領先 baseline，說明它唔只重建外觀，亦較重視元素級別的可編輯性。儲存庫已提供 agent、baseline 同工具後端結構，但它更似一個研究系統而唔係輕量腳本；較值得留意的是多 GPU 分片、平行 worker 同視覺工具的資源安排，較適合有運算環境的研究者或產品團隊深入測試。

項目主頁 · GitHub

Categories: 開源, Qwen, Agentic, Image, 多模態模型, 影像處理, 視覺模型, Dataset 數據集

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

Sol-Attn：免訓練稀疏注意力影片生成加速達 2.1 倍

2026 年 7 月 30 日

影片生成模型愈來愈強，但推理速度依然是開發者和創作團隊最常卡住的地方。NVIDIA Research 提出的 Sol-Attn，正正針對這個矛盾：它把「訓練用嘅成本」同「推理時嘅效率」分開處理，讓預訓練模型無須重新訓練就可以直接加速。

Sol-Attn 屬於免訓練（training-free）嘅稀疏注意力機制，做法是動態計算一個 query 相關嘅閾值，即場篩走低貢獻嘅注意力區塊，同時把未選中嘅分數重用做近似補償，整個過程喺一次 online-softmax 內完成。換句話講，它毋須事先計好一張路由表，亦唔會直接丟棄被跳過嘅區塊，因此能保留長尾分佈對最終畫面嘅影響。

喺 Wan 2.1、Hunyuan 1.5、LTX 2.3、Bernini 等多個主流模型上，Sol-Attn 都做到約 2 倍嘅速度提升，同時畫質幾乎唔受影響。若配合 Sol-Engine 中其他加速技巧，仲可以推到 5 倍嘅端到端加速。對於要跑長影片、做後製編輯，或者本地有限顯示卡環境嘅使用者來說，呢個幅度算係幾實用嘅改進。

對比以往「離線先揀一次、再丟棄」嘅做法，Sol-Attn 最大嘅差異在於即場判斷同重用機制。讀者如果本身就喺度搵方法縮短生成等待時間，又唔想額外花資源微調模型，呢套方案值得留意。

項目主頁 · GitHub

Categories: NVIDIA, Video, Image, 模型訓練, 視頻模型, LTX

ViMax 把影片生成變成多代理流程

2026 年 7 月 29 日

直接由文字生成影片，最易出問題的通常不是畫面夠不夠靚，而是故事走向會散、鏡頭難連貫、角色設定前後不一。ViMax把這些環節拉回工作流處理：它屬於 Agentic Video Generation 類型的開源項目，用多個 Agent 分別扮演 Director、Screenwriter、Producer 與 Video Generator，目標是把影片生成由單次出圖，變成可規劃的多步驟流程。

這種取向的分別，在於它不只追求「一句提示詞出片」，而是先把敘事、鏡頭與製作安排拆開，再交回生成模組執行。對內容創作者、想做短片原型的團隊，或者研究多代理協作點樣落地到視頻模型工作流的人，這個項目會較有參考價值；但儲存庫提供的資訊目前偏簡短，未見完整測試結果、部署細節或清晰的安裝流程。

從名稱與描述判斷，ViMax較像一個協調層或框架，而不只是單一視頻模型。它想補的是影片生成裡最難靠單一模型穩定完成的前置規劃，因此價值未必在最終某一幀畫質，而在於整段片能否保持節奏與結構。不過，原始資料未交代它串接哪些底層模型、怎樣處理角色一致性，亦未提供性能指標，現階段較適合先當成研究方向與工作流設計來理解。

把影片生成拆成 Director、Screenwriter、Producer、Video Generator 多個 Agent
重點放在規劃與協作，不只是單次提示詞生成
適合研究多代理、多步驟視頻製作流程的人參考
儲存庫描述很短，暫時未見完整安裝、部署與評測資訊

ViMax最吸引人的地方，是它把「生成影片」理解成一條需要分工的製作鏈，而不是單一模型一次完成所有事。現有資訊仍不足以判斷成品穩定性或生產可用度，但作為開源方向，它清楚對準了多模態模型在長段影片敘事上的核心難題。

GitHub

Categories: 開源, 香港大學, Agentic, Video, AI productions

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, 清華大學, Dataset 數據集

CrossView 用 3D 數值控制鏡頭：LTX-Video 跨視角生成

2026 年 7 月 28 日

想將一段現成影片改成另一個鏡頭角度，又唔想主體變樣或空間關係散掉，這正是此模型處理的問題。它明確基於 Lightricks/LTX-2.3，屬於 LTX-Video 2.3 22B 的 IC-LoRA 微調，重點不是純文字改鏡頭，而是用輸入影片加相機偏移數值，重建同一場景的新視角。

頁面提供的做法幾清楚：模型同時接收兩段參考影片，一段是由 CrossViewWarp ComfyUI node 產生的 depth-warp 影片，用來保留幾何結構；另一段是原始影片，用來維持主體 identity。這種雙參考分工，反映它優先解決「換角度後仍要似原片」的取捨，比單靠 prompt 描述鏡頭更穩定。

它與同作者的 CrossView Prompt LoRA 差異亦很直接：後者由文字提示選鏡頭角度，這個版本改為輸入 azimuth / elevation / distance 等數值，所以鏡頭控制更精確。頁面亦提到可以在 3D orbit picker 加 keyframes，逐幀插值相機姿態，代表不只可做固定新視角，也可做繞拍式 camera move。

基礎模型已標明為 Lightricks/LTX-2.3，授權為 Apache-2.0。
主要檔案是 LTX2.3-22B_IC-LoRA-CrossView-Warp_v0.9_18000.safetensors。
依賴 ComfyUI-CrossViewWarp 與 Depth Anything V2 節點提供 depth 輸入。
示例包含固定視角偏移與 keyframed 軌道鏡頭，並說明輸出來自真實影片而非合成訓練片段。

這個項目目前仍是 PoC，它較偏向 ComfyUI 工作流驗證，而不是通用本地大語言模型部署。

模型

Categories: 開源, ComfyUI, Video, 3D, AI productions, 視覺模型, 視頻模型, LTX

TBSM 想把一步生成變得更實用

2026 年 7 月 27 日

TBSM one-step samples across handwritten digits, fashion items, CIFAR-10, ImageNet, and text-to-image generation.

生成模型一路追求更快出圖，但速度一提升，訓練往往就變得更複雜。TBSM 把焦點放在one-step generation，而且唔係靠 adversarial critic、teacher queries，亦唔需要 batch-wide all-pairs field 去撐住整個流程；它屬於生成模型方法，處理的是怎樣用較直接的監督，把一次生成做得可訓練又可擴展。

這個項目的判斷重點，在於它不只是講快，而係試圖避開幾條常見路線的代價：GANs 容易受 adversarial min-max objective 影響，AR / Diffusion 要逐步解碼或反覆採樣，Drifting Models 會受 batch 規模拖高成本，diffusion distillation 又常常連帶額外模型、loss 或訓練技巧。TBSM 用 three-body scattering 連到 distributional energy，目標是把分佈層面的學習，壓成 sample-level supervision，令一步生成唔使再背住咁重的系統負擔。

它已展示多種資料與輸出空間，包括 handwritten digits、fashion items、CIFAR-10、ImageNet，以及 1024×1024 的 text-to-image。這代表它較像研究型項目而唔係即裝即用產品：你會先從 paper、示意圖與 quick start 去理解訓練與生成流程，再按資料集或任務類型測試效果，較適合有模型訓練環境的研究團隊、影像生成項目，或者想研究 one-step generation 取捨的人。

核心賣點是一跳生成，不靠多步採樣換品質
設計上避開 adversarial critic、teacher model 同 batch 全配對成本
已展示多個資料集與 text-to-image，覆蓋面比純玩具示範更廣
現階段更接近研究實驗框架，部署前要先消化方法與訓練設定

它吸引人的地方，在於把「生成速度」同「訓練系統複雜度」一齊拉入取捨表，而不只是追某個指標。現有資訊未見完整效能數字與部署細節，表示讀者現階段應把它看成值得追蹤的生成模型研究方向：概念清晰、定位明確，但要判斷是否適合生產環境，仍然要等更完整的評測與開源內容。

GitHub

Categories: 開源, Qwen, Image, txt2img

Qwen Image 3 Studio 一站式玩轉文字、影像與工具

2026 年 7 月 27 日

想喺同一個介面完成對話、睇圖、生成影像、處理文件，同時再配合網頁搜尋同工具調用，Qwen Studio 走的是整合式 AI 工作台路線。對一般用家而言，重點唔係逐個模型切換，而係可以較順手地喺同一流程內完成理解、生成同操作。

現有資料顯示，Qwen Studio 涵蓋 chatbot、image and video understanding、image generation、document processing、web search integration、tool utilization 同 artifacts。這種組合對內容整理、資料查找、讀圖問答，以至需要一邊對話一邊調用工具的工作流較有吸引力，因為中間少咗介面切換同上下文斷裂。

把聊天、讀圖、影片理解同生成能力集中喺同一入口
支援 document processing，適合處理文件內容同資料整理
結合 web search integration，可補充即時或外部資訊
包含 tool utilization 同 artifacts，方便延伸到更完整操作流程

目前公開內容偏向功能層面的簡介，未見更詳細的模型結構、效能指標或評測結果，所以較適合先將它理解為 Qwen 生態入面的一個綜合使用介面，而唔係單一模型發表。對想快速試用多模態模型、工具調用同線上服務整合的人，呢類入口通常更容易上手。

項目主頁

Categories: 阿里巴巴, Qwen, Video, Image, 影像模型

Page 2 of 22

« Previous 1 2 3 4 … 22 Next »