開源 – Page 3 – InferNews

ID-V2V：先拍片後改風格的影像研究

2026 年 7 月 31 日

開發團隊來自 Netflix 與 Eyeline Labs。這個研究項目瞄準影像製作中最棘手的一段流程：想改影片風格、場景氣氛甚至補做光線，但又不想犧牲演員的表情、眼神、口型同步和肢體動作；ID-V2V 屬於 video-to-video 生成框架，處理的正是這種「保留身份與表演、再把風格傳播到整段影片」的問題。

現有做法常把影片重繪理解成一般風格轉換或逐格生成，作者認為這種範式很難同時守住 facial likeness 與細微 performance。ID-V2V 的切入點是把 identity preservation 重新表述成 video relighting，再把 edited keyframe 帶來的風格變化交給 controlled video synthesis 處理，並結合 relit facial regions、facial normal maps、edited keyframes 與 depth sequences，將身份約束與整體畫面變化拆開處理。

這個取向的價值很直接：你先拍好 source video，再準備一張 stylized keyframe，系統便嘗試把光線、場景與風格延展到整段片，同時盡量守住人物。原始資料亦提到 imperfect keyframe 的情況，即使首張風格幀和原片姿勢未必完全對齊，模型仍會在之後的幀數重新貼近 source video 的身份與表演，這點比只追求單幀好看更貼近製作流程。

提供兩個模型變體：idv2v 以及加入 normal-depth 訊號的版本
preprocess → generate 的推理流程與輸入輸出結構
環境集中在單一 uv 環境，另需下載多個 checkpoints，預設資源需求相當高
已測試於 8× A100-80GB，代表它較接近研究與製作級部署，不是輕量玩具
項目定位寫得很清楚，只供 demonstration and inspiration purposes

部署與測試資訊算完整，提供環境設定、checkpoint 下載、推理流程和多種案例，但門檻不低：需要 Python 3.10、torch 2.6+cu118、SAM3 權限，以及連同 Wan2.1 相關元件在內的大量模型檔案。性能方面，項目與首頁都表示在 preserving facial likeness 與 fine-grained facial performance 上明顯優於既有方法，並支援 single-subject 與 multi-subject 場景。

項目主頁 · GitHub · Paper

Categories: 開源, Video, Python, 影像處理, Dataset 數據集

LTX-2.3 Black-Magic 黑暗補景 LoRA

2026 年 7 月 31 日

拍到過暗片段時，最直接嘅痛點係一加光就爆雜訊、細節仍然唔見。LTX-2.3-Black-Magic-LoRA 明確建基於 Lightricks/LTX-2.3，以 adapter 形式提供 IC-LoRA，定位唔係忠實還原訊號，而係替黑位內容做具時間連貫性嘅生成式重建，所以更接近 video-to-video 視覺特效模型，而唔係傳統 low-light enhancement。

取捨亦講得好清楚：當原始畫面資訊太少，模型會「推斷」暗處可能有咩，而唔係保證還原真實場景。呢種做法對氣氛鏡頭、夜景、舞台火光、森林或室內昏暗片段有吸引力，因為畫面觀感會比單純提亮更自然；但用喺證據保存、監控取證或要求真實性的工作，就要非常審慎。

項目提供嘅技術資訊相對精簡。已知它使用 diffusers，pipeline tag 係 video-to-video，模型檔案列出 black-magic-ic-lora-450.safetensors，而名稱中標示對應 LTX-2.3 22B。不過頁面截圖內容未見上下文長度、GGUF 格式量化、mmproj、llama.cpp、Ollama、LM Studio、MTP draft speculation、v2 更新紀錄、檔名變更或 chat template 說明，代表呢頁並唔係本地 LLM 部署型模型卡，相關部分無法確認。

基礎模型已明示為 Lightricks/LTX-2.3，關係為 adapter，而唔係完整重訓主模型。
能力核心係 shadow reconstruction，重建暗部觀感，唔等於忠實還原原始訊號。
標籤集中在 ltx-video、low-light、generative-video、vfx、lighting，用途相當聚焦。
已知檔案只有 black-magic-ic-lora-450.safetensors。

同一般曝光修正最大分別，在於接受「畫面不夠資料時需要生成補完」呢個前提。使用者應該將它視為風格化且偏後期製作取向嘅影像模型；想改善觀感、保住影片連續性，它有明確價值，但要用作真實場景還原，頁面本身已經劃清界線。

項目主頁 · 模型

Categories: 開源, NVIDIA, Video, Image, Python, 視覺模型, LTX

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

ReDesign 把平面圖轉為可編輯設計

2026 年 7 月 31 日

設計原檔遺失之後，最麻煩唔係畫面睇唔到，而係改唔到字、拆唔開圖層、調唔到前後次序。ReDesign屬於Agentic取向的研究型工具，目標係由單張 raster image 重建出可編輯設計結構，輸出成帶有文字、向量形狀、群組同 z-order 的 JSON hierarchy。

它的判斷方式唔係一次過猜完整個版面，而係將設計當成 layer tree，由大區域開始逐層拆細，再用 verifier 檢查每一步成唔成立。呢個取向比起只做 OCR、只做分割，或者直接做多圖層分解更完整，代價就係系統較重，亦要配合多個視覺工具同較高 GPU 記憶體，當中 Qwen 相關 worker 官方已寫明大約要對應 55 GB 級別資源先容易跑得順。

相關模組之間的分工幾清楚：VLM controller 負責揀動作，文字會交由 PaddleOCR、字體辨識、Hi-SAM 同 LaMa 處理；物件與圖層則會用到 Qwen-Image-Layered、GroundingDINO、SAM 2、connected-component analysis 同 VTracer。換句話講，呢個項目唔係單一模型，而係把多個模型與工具串成一條可驗證的還原流程，較適合研究設計還原、可編輯圖形生成，或者想將靜態素材重新帶回設計工作流的團隊。

單張平面圖可還原成可編輯 JSON hierarchy
支援文字、向量形狀、圖片、群組與 z-order
採用 coarse-to-fine tree expansion，加上 verifier 修正分支
效能展示基於 Figma-909，指標上普遍優於多個 baseline

評測方面，項目頁面列出 Figma-909 這個 Dataset 數據集，並顯示 ReDesign 在 L1、PSNR、LPIPS、PQ 同 F1 等指標整體領先 baseline，說明它唔只重建外觀，亦較重視元素級別的可編輯性。儲存庫已提供 agent、baseline 同工具後端結構，但它更似一個研究系統而唔係輕量腳本；較值得留意的是多 GPU 分片、平行 worker 同視覺工具的資源安排，較適合有運算環境的研究者或產品團隊深入測試。

項目主頁 · GitHub

Categories: 開源, Qwen, Agentic, Image, 多模態模型, 影像處理, 視覺模型, Dataset 數據集

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

quote-and-retrieve：用「引文＋檢索」的視覺文件理解

2026 年 7 月 30 日

Repository image for Ryenhails/quote-and-retrieve

視覺語言模型 (VLM) 讀完文件回答問題時，傳統做法會要求它同時輸出 bounding box 標註證據位置；然而開源模型經常「答對但指錯」，這現象被稱為 Attribution Hallucination。這個來自赫爾辛基 Aalto 大學的開源項目主張，問題癥結很大程度是輸出介面本身的限制，而非模型缺乏 grounding 能力。

他們設計了一組控制變量實驗：固定模型、輸入頁面、題目與評分機制，僅改變證據表達方式。座標介面要求模型逐 token 生成框；語言介面則由模型輸出逐字引文，再交由外部 layout parser 與 retriever 找回對應區域（表格與圖片透過 caption 或註解引用）。在四個家族共六款開源 VLM 上，evidence recall 由座標介面下最高 8 分躍升至語言介面的 26 至 47 分，hallucination rate 近乎砍半，而答題品質幾乎不變。

基於這個對比，作者進一步提出 region-label-free GRPO 訓練方法：獎勵訊號只讀取 gold answer 與檢索區域的裁切圖，毋須任何 region-level 標註。8B 模型在這個框架下，strict attributed accuracy 由 22.4 提升至 33.8，等於用更便宜的監督換到明顯的歸因改善。

對於處理長文件、多模態表格或需要可追溯證據鏈的團隊（例如文件審核、研究文獻回顧）來說，這條 quote-and-retrieve 路線既繞開昂貴的人工框標註，也避開模型不擅長的座標生成。想要快速感受差異，只需 clone 項目後執行 python src/score_citevqa.py examples/sample_predictions.jsonl 與同一指令對座標版本跑一次；附帶的範例檔只有四題合成題，卻已重現論文核心發現。

重點摘要：
– 問題重新定位：歸因幻覺多屬輸出介面產物，並非模型能力不足
– 介面切換：座標介面換成引文＋外部 retriever，evidence recall 由 ≤8 升至 26–47
– 訓練替代方案：region-label-free GRPO 用 gold answer＋裁切圖作獎勵，毋須昂貴框標註
– 規模效益：8B 模型 strict attributed accuracy 由 22.4 提升至 33.8
– 快速驗證：附範例 JSONL，無需 GPU 即可重現對比結果

GitHub · Paper

Categories: 開源, Qwen, Clone, Python, 多模態模型, 模型, 視覺模型

Galahad：12B 凍結模型零解碼作答的工業經驗

2026 年 7 月 30 日

Repository image for corbenicai/galahad-bench

這套 Galahad 系統背後的關注點很直接：今天要提升語言模型，就要重訓練，每次都得重新生成答案，既貴又隨機。他們選擇反向操作——模型參數完全凍結，只在旁邊持續累積已驗證的解題記憶。同一個 12B 模型，對於已處理過的題目家族，直接命中記憶中的求解器，整數級精確一致，每次結果都完全相同，而且生成 token 數為零；對於新題目，則照常從零推理解答。系統聲稱在 180 個全新題目、橫跨九個題目家族上，讓四個來自不同供應商、架構各異的開源模型全部拿到 180/180，並且每次回答都不耗任何生成 token。

這個做法最值得留意的，是它對「記憶」一詞的重新定義。系統內部存的是可被獨立外部 oracle 自動驗證的執行式解題結果，不是用相似度檢索找出來的近似片段。作者在特別批評了業界慣用的近似向量相似度檢索：在一個 4,500 條已驗證答案的庫上，這種方法有 94.3% 機率選錯項目，而精確定址則零錯誤。換句話說，對於可驗證、可執行的知識，相似度近似檢索不是表現稍差，而是幾乎不可用，精確定位是必須的設計前提，不是可選偏好。

對於要部署閉環計算、形式化證明、程式碼執行這類可驗證任務的團隊，這套思路很有吸引力：記憶檢索耗時約 1.4 微秒，完整重用流程 6 至 23 毫秒，每次重用只耗 36 毫瓦時電力，相對於一次性求解兼驗證所需的 81.1 瓦時，節能差距明顯。模型本身不重新訓練，能力靠記憶累積，這對想控制運算開支、又需要可重現輸出的場景，例如 CI 中的程式生成或單元測試，是務實的取捨。

但限制也要看清楚：作者指出在公開基準的從零推理上，前沿模型依然遠勝任何 12B；Galahad 的強處是對「已被系統解決並驗證過」的題目家族做到零成本重用，不等於通用智能提升。負面控制也排除了另一種解釋——把記憶清空，系統一道也解不出來，這進一步確認能力確實來自記憶層，不是模型本身突然變聰明。對於想關注的是開源權重能否落地到工業管道的讀者，這份來自 Corbenic AI 的工業經驗報告值得留意，因為它把「訓練之外如何持續累積能力」這條路寫成了可量化的章節。

模型凍結，能力改由外部已驗證記憶承擔，180 題零 token 滿分
精確定址取代向量相似度檢索，在 4,500 條庫上錯誤率 94.3% 對 0%
重用耗時 6–23 毫秒、每次 36 毫瓦時，對比一次性求解 81.1 瓦時
開源模型架構無關：四個不同 dense 與 MoE 模型皆達 180/180
GitHub 目前僅放測試頁占位，引擎源碼尚未公開釋出

GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, Dataset 數據集, 框架

ViMax 把影片生成變成多代理流程

2026 年 7 月 29 日

直接由文字生成影片，最易出問題的通常不是畫面夠不夠靚，而是故事走向會散、鏡頭難連貫、角色設定前後不一。ViMax把這些環節拉回工作流處理：它屬於 Agentic Video Generation 類型的開源項目，用多個 Agent 分別扮演 Director、Screenwriter、Producer 與 Video Generator，目標是把影片生成由單次出圖，變成可規劃的多步驟流程。

這種取向的分別，在於它不只追求「一句提示詞出片」，而是先把敘事、鏡頭與製作安排拆開，再交回生成模組執行。對內容創作者、想做短片原型的團隊，或者研究多代理協作點樣落地到視頻模型工作流的人，這個項目會較有參考價值；但儲存庫提供的資訊目前偏簡短，未見完整測試結果、部署細節或清晰的安裝流程。

從名稱與描述判斷，ViMax較像一個協調層或框架，而不只是單一視頻模型。它想補的是影片生成裡最難靠單一模型穩定完成的前置規劃，因此價值未必在最終某一幀畫質，而在於整段片能否保持節奏與結構。不過，原始資料未交代它串接哪些底層模型、怎樣處理角色一致性，亦未提供性能指標，現階段較適合先當成研究方向與工作流設計來理解。

把影片生成拆成 Director、Screenwriter、Producer、Video Generator 多個 Agent
重點放在規劃與協作，不只是單次提示詞生成
適合研究多代理、多步驟視頻製作流程的人參考
儲存庫描述很短，暫時未見完整安裝、部署與評測資訊

ViMax最吸引人的地方，是它把「生成影片」理解成一條需要分工的製作鏈，而不是單一模型一次完成所有事。現有資訊仍不足以判斷成品穩定性或生產可用度，但作為開源方向，它清楚對準了多模態模型在長段影片敘事上的核心難題。

GitHub

Categories: 開源, 香港大學, Agentic, Video, AI productions

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, 清華大學, Dataset 數據集

Google 開源 GNM Head：更完整的人頭 3D 模型

2026 年 7 月 28 日

只做臉部外殼，很多時已經唔夠用；去到動畫、重建同生成式影像控制，眼球、口腔同頭部姿態一旦分離得唔好，效果就會即刻穿崩。google/GNM 目前先開放的 GNM Head，屬於3D parametric statistical human model 項目，焦點是用更完整的人頭幾何表示，處理傳統 3D Morphable Models (3DMMs) 對內部 anatomy 覆蓋不足的問題。

這個項目的取向很鮮明：不只是追求一個可調參的人臉網格，而是把 head、face、neck、eyeballs、teeth、tongue 放進同一個生成式人體測量框架。作者在技術報告指出，現有公開模型多數只覆蓋外部幾何，亦容易受限於低保真掃描資料；GNM 則結合高解析 3D scans 與 anatomy-specific artist-made samples，並加入 ocular 同 intra-oral specialized sub-models，目的就是改善幾何品質同可控性之間的取捨。

現有儲存庫較像一個生態系入口，而唔係即開即用的單一應用程式。README 清楚列出 GNM Head 已提供 NumPy、JAX、PyTorch、TensorFlow 多後端支援，亦有 Linux、macOS、Windows 的 CI；但目前公開資訊以模型與技術報告為主，未見到很完整的產品化操作流程說明，所以較適合研究、角色生成、數碼人、3D 視覺或生成式影像控制團隊按其子目錄文件逐步接入。

補足傳統 3DMM 常見缺口：不只外形，連眼球、牙齒、舌頭都可控
GNM Head 強調 identity、expressions、head pose 的 disentangled control
同時支援 NumPy、JAX、PyTorch、TensorFlow，方便接去不同研究流程
技術報告聲稱在 fitting target 3D face scans 達到 SotA 表現，但具體指標仍要回看原報告

它最吸引人的地方，在於把「可生成、可擬合、可作條件控制」三條路線拉到同一個模型家族內。現階段公開內容仍以 GNM Ecosystem 的起步版本為主，想拿來做完整 production pipeline，仍要自己判斷與現有重建、動畫或生成系統的整合成本；但作為高保真人頭 3DMM 的新基礎，這個項目的研究價值同延展空間都相當高。

GitHub · Paper

Categories: 開源, Google, TensorFlow, 3D, Linux, Mac, Python, 多模態模型, 模型, 語音, Dataset 數據集

Page 3 of 66

« Previous 1 2 3 4 5 … 66 Next »