阿里巴巴 – InferNews

用 Hermes Agent 自動跑 ComfyUI 影片流程

2026 年 8 月 2 日

由文字指令直接帶動整條 AI 內容製作流程，正是這段教學最吸引人的地方。影片示範 Hermes Agent 在 Windows 電腦上接手 ComfyUI 操作，把影像、語音與影片生成串成一套可執行工作流，減少人手逐步點擊介面的時間。

這類做法處理的，是多工具協作時常見的斷層：模型會生成內容，但流程仍要靠人逐格設定、切換節點、整理輸出。Hermes Agent 扮演的角色更接近可執行指令的 Agent，讓使用者用自然語言描述需求，再由它推動 ComfyUI 與相關模型完成步驟。

影片標題提到的 Krea 2、LTX 2.3、Qwen 與 Fish Audio，反映這條工作流並不只限於單一模型，而是把視覺、影片與音訊能力接在一起。重點不在單一模型參數，而在於怎樣把不同項目整合成可重複使用的自動化流程。

Hermes Agent 可在 Windows 環境控制 ComfyUI
工作流涵蓋影像、音訊與影片生成
輸入形式以簡單文字指令為主
涉及 Krea 2、LTX 2.3、Qwen、Fish Audio 等模型或服務

對內容創作者、想整理 AI 製作流程的人，這類教學特別有參考價值。它未必代表所有步驟都能完全免調整，但已清楚展示 Agentic 工作流如何把 ComfyUI 由節點工具，進一步變成可自動執行的製作中樞。

項目主頁

Categories: Qwen, Google, ComfyUI, Agentic, Video, Audio, AI productions, 安全, 教學, 視覺模型, 視頻模型, LTX

PhiZero 用物理語言先推演再生成影片

2026 年 8 月 1 日

生成影片最難處理的，往往唔係畫面清唔清，而係物件點移動、碰撞同延續。PhiZero 屬於世界模型（World Model），焦點放在「先理解世界狀態點轉變，再生成畫面」，用較細緻的 physical language 去表達變化，減少直接由像素預測帶來的不穩定感。

它想解決的問題很明確：自然語言太粗略，難以完整描述複雜物理過程；純視覺生成又未必能穩定保留因果同動作連貫性。PhiZero 於是從大量無標註影片學出一套 compact discrete representation，先把相鄰影片狀態之間的轉變編碼成 physical language，再交由模型根據首幀畫面同文字動作意圖，預測之後的狀態序列，最後渲染成影片。

它採用 reason-then-render 流程。前段由 Physical Language Tokenizer 抽取相鄰 latent video states 的有序特徵，配合 FSQ 離散化成 physical language；後段由以 Qwen3-VL-4B 初始化的 autoregressive VLM 負責推演，再用訓練好的 diffusion decoder 輸出影片。這種拆法的價值，在於同一套 transition representation 可以重用在 physically realistic generation、action-conditioned simulation、interactive rollouts 同 zero-shot transfer，而唔係只限單一生成任務。

先推演世界轉變，再生成影片，重點放在因果與動作連續性
physical language 來自無標註 in-the-wild videos，自監督學習轉變結構
以 Qwen3-VL-4B 作為 reasoner 基礎，並擴充 25K atomic symbols 詞彙
同一表示方式可支援生成、模擬、互動 rollout 同 transfer

現有資料顯示，PhiZero 的訓練資料同時結合真實與模擬影片，並經過逐步篩選，令模型由廣泛視覺經驗收斂到較多動態互動片段。官方頁面已展示 demos，但程式碼仍標示為即將推出，所以現階段較適合把它看成一個值得關注的世界模型方向：它不是單靠更大影片模型硬推結果，而是嘗試先建立可推理、可重用的物理語言介面。

項目主頁 · Paper

Categories: Qwen, Video, 視覺模型, 世界模型

SkillRise 把技能文件變成可累積學習

2026 年 8 月 1 日

做完一題就把經驗丟掉，往往是代理系統訓練最可惜的地方。SkillRise 屬於強化學習框架，焦點放在 cross-task skill learning：讓同一個 policy 按次序處理同一家族的任務，一邊解題，一邊把軌跡整理成會持續演化的 skill document，將前一題學到的做法帶去下一題。

它的取向不是把每個任務分開訓練到最好，而是刻意安排由淺入深的任務序列，讓 Solve 與 Curate 交替發生。這個設計針對的是跨任務遷移能力，而不是單一回合表現；代價是環境設定與資料組織較講究，ALFWorld、WebShop 要跟隨 verl-agent 的環境配置，ScienceWorld 則沿用 BEACON 的 setup，並且要先整理模型路徑、資料路徑與追蹤設定。

README 提供了可直接對照的執行方式：同一套 examples 結構下，既有 SkillRise，也有 GRPO baseline，方便把新方法與基線放在相近條件下比較。模型部分從腳本名稱可見已準備 Qwen3-4B 配置，底層也建立在 veRL、verl-agent、BEACON 等現成項目之上，所以它比較像研究與實驗工作流的延伸，而不是即裝即用的產品。

把「解任務」與「整理技能」拆成兩個交替角色
用同一家族、逐步變難的任務序列測試技能轉移
在 ALFWorld、WebShop、ScienceWorld 都有評估
README 明確保留 GRPO baseline 方便做對照

成果描述指向一個清楚結論：SkillRise 在 ALFWorld、WebShop、ScienceWorld 的整體結果最好，勝過 prompting-based methods 與 RL baselines。較適合研究 Agentic workflow、長程技能累積、跨任務學習的團隊；想觀察 skill document 如何影響後續決策的人，也會比只看最終分數得到更多訊息。

GitHub

Categories: 開源, Qwen, Agentic, 提示詞, Skill 技能

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

ReDesign 把平面圖轉為可編輯設計

2026 年 7 月 31 日

設計原檔遺失之後，最麻煩唔係畫面睇唔到，而係改唔到字、拆唔開圖層、調唔到前後次序。ReDesign屬於Agentic取向的研究型工具，目標係由單張 raster image 重建出可編輯設計結構，輸出成帶有文字、向量形狀、群組同 z-order 的 JSON hierarchy。

它的判斷方式唔係一次過猜完整個版面，而係將設計當成 layer tree，由大區域開始逐層拆細，再用 verifier 檢查每一步成唔成立。呢個取向比起只做 OCR、只做分割，或者直接做多圖層分解更完整，代價就係系統較重，亦要配合多個視覺工具同較高 GPU 記憶體，當中 Qwen 相關 worker 官方已寫明大約要對應 55 GB 級別資源先容易跑得順。

相關模組之間的分工幾清楚：VLM controller 負責揀動作，文字會交由 PaddleOCR、字體辨識、Hi-SAM 同 LaMa 處理；物件與圖層則會用到 Qwen-Image-Layered、GroundingDINO、SAM 2、connected-component analysis 同 VTracer。換句話講，呢個項目唔係單一模型，而係把多個模型與工具串成一條可驗證的還原流程，較適合研究設計還原、可編輯圖形生成，或者想將靜態素材重新帶回設計工作流的團隊。

單張平面圖可還原成可編輯 JSON hierarchy
支援文字、向量形狀、圖片、群組與 z-order
採用 coarse-to-fine tree expansion，加上 verifier 修正分支
效能展示基於 Figma-909，指標上普遍優於多個 baseline

評測方面，項目頁面列出 Figma-909 這個 Dataset 數據集，並顯示 ReDesign 在 L1、PSNR、LPIPS、PQ 同 F1 等指標整體領先 baseline，說明它唔只重建外觀，亦較重視元素級別的可編輯性。儲存庫已提供 agent、baseline 同工具後端結構，但它更似一個研究系統而唔係輕量腳本；較值得留意的是多 GPU 分片、平行 worker 同視覺工具的資源安排，較適合有運算環境的研究者或產品團隊深入測試。

項目主頁 · GitHub

Categories: 開源, Qwen, Agentic, Image, 多模態模型, 影像處理, 視覺模型, Dataset 數據集

quote-and-retrieve：用「引文＋檢索」的視覺文件理解

2026 年 7 月 30 日

Repository image for Ryenhails/quote-and-retrieve

視覺語言模型 (VLM) 讀完文件回答問題時，傳統做法會要求它同時輸出 bounding box 標註證據位置；然而開源模型經常「答對但指錯」，這現象被稱為 Attribution Hallucination。這個來自赫爾辛基 Aalto 大學的開源項目主張，問題癥結很大程度是輸出介面本身的限制，而非模型缺乏 grounding 能力。

他們設計了一組控制變量實驗：固定模型、輸入頁面、題目與評分機制，僅改變證據表達方式。座標介面要求模型逐 token 生成框；語言介面則由模型輸出逐字引文，再交由外部 layout parser 與 retriever 找回對應區域（表格與圖片透過 caption 或註解引用）。在四個家族共六款開源 VLM 上，evidence recall 由座標介面下最高 8 分躍升至語言介面的 26 至 47 分，hallucination rate 近乎砍半，而答題品質幾乎不變。

基於這個對比，作者進一步提出 region-label-free GRPO 訓練方法：獎勵訊號只讀取 gold answer 與檢索區域的裁切圖，毋須任何 region-level 標註。8B 模型在這個框架下，strict attributed accuracy 由 22.4 提升至 33.8，等於用更便宜的監督換到明顯的歸因改善。

對於處理長文件、多模態表格或需要可追溯證據鏈的團隊（例如文件審核、研究文獻回顧）來說，這條 quote-and-retrieve 路線既繞開昂貴的人工框標註，也避開模型不擅長的座標生成。想要快速感受差異，只需 clone 項目後執行 python src/score_citevqa.py examples/sample_predictions.jsonl 與同一指令對座標版本跑一次；附帶的範例檔只有四題合成題，卻已重現論文核心發現。

重點摘要：
– 問題重新定位：歸因幻覺多屬輸出介面產物，並非模型能力不足
– 介面切換：座標介面換成引文＋外部 retriever，evidence recall 由 ≤8 升至 26–47
– 訓練替代方案：region-label-free GRPO 用 gold answer＋裁切圖作獎勵，毋須昂貴框標註
– 規模效益：8B 模型 strict attributed accuracy 由 22.4 提升至 33.8
– 快速驗證：附範例 JSONL，無需 GPU 即可重現對比結果

GitHub · Paper

Categories: 開源, Qwen, Clone, Python, 多模態模型, 模型, 視覺模型

Galahad：12B 凍結模型零解碼作答的工業經驗

2026 年 7 月 30 日

Repository image for corbenicai/galahad-bench

這套 Galahad 系統背後的關注點很直接：今天要提升語言模型，就要重訓練，每次都得重新生成答案，既貴又隨機。他們選擇反向操作——模型參數完全凍結，只在旁邊持續累積已驗證的解題記憶。同一個 12B 模型，對於已處理過的題目家族，直接命中記憶中的求解器，整數級精確一致，每次結果都完全相同，而且生成 token 數為零；對於新題目，則照常從零推理解答。系統聲稱在 180 個全新題目、橫跨九個題目家族上，讓四個來自不同供應商、架構各異的開源模型全部拿到 180/180，並且每次回答都不耗任何生成 token。

這個做法最值得留意的，是它對「記憶」一詞的重新定義。系統內部存的是可被獨立外部 oracle 自動驗證的執行式解題結果，不是用相似度檢索找出來的近似片段。作者在特別批評了業界慣用的近似向量相似度檢索：在一個 4,500 條已驗證答案的庫上，這種方法有 94.3% 機率選錯項目，而精確定址則零錯誤。換句話說，對於可驗證、可執行的知識，相似度近似檢索不是表現稍差，而是幾乎不可用，精確定位是必須的設計前提，不是可選偏好。

對於要部署閉環計算、形式化證明、程式碼執行這類可驗證任務的團隊，這套思路很有吸引力：記憶檢索耗時約 1.4 微秒，完整重用流程 6 至 23 毫秒，每次重用只耗 36 毫瓦時電力，相對於一次性求解兼驗證所需的 81.1 瓦時，節能差距明顯。模型本身不重新訓練，能力靠記憶累積，這對想控制運算開支、又需要可重現輸出的場景，例如 CI 中的程式生成或單元測試，是務實的取捨。

但限制也要看清楚：作者指出在公開基準的從零推理上，前沿模型依然遠勝任何 12B；Galahad 的強處是對「已被系統解決並驗證過」的題目家族做到零成本重用，不等於通用智能提升。負面控制也排除了另一種解釋——把記憶清空，系統一道也解不出來，這進一步確認能力確實來自記憶層，不是模型本身突然變聰明。對於想關注的是開源權重能否落地到工業管道的讀者，這份來自 Corbenic AI 的工業經驗報告值得留意，因為它把「訓練之外如何持續累積能力」這條路寫成了可量化的章節。

模型凍結，能力改由外部已驗證記憶承擔，180 題零 token 滿分
精確定址取代向量相似度檢索，在 4,500 條庫上錯誤率 94.3% 對 0%
重用耗時 6–23 毫秒、每次 36 毫瓦時，對比一次性求解 81.1 瓦時
開源模型架構無關：四個不同 dense 與 MoE 模型皆達 180/180
GitHub 目前僅放測試頁占位，引擎源碼尚未公開釋出

GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, Dataset 數據集, 框架

ClinFusion 把醫療影像讀懂再回答

2026 年 7 月 28 日

醫療多模態模型最易失準的位置，往往不是會不會答，而是有沒有真正對準影像內容。ClinFusion屬於模型，更準確地說是面向臨床理解的 vision-centric Multimodal large language models (MLLMs) 系統，重點放在同時處理 2D 圖像、原生 3D NIfTI 影像與文字任務，減少只靠文字對齊時常見的臨床細節流失。

現有做法常把醫療問題當成一般多模態問答處理，但作者認為這種範式忽略了 3D 影像與放射科判讀流程，因此用 compositional and cascaded vision encoder 配合 Cascade Spatial-Aware Locality Fusion，把 2D 與 native 3D 醫療影像放進同一個 fused encoder。另一個關鍵不是只換模型，而是連評測也改寫：加入 MedIF-Bench 檢查 instruction following，並用 region-of-interest-grounded 方法評估報告生成的 factualness。

論文給出的成績相當進取：ClinFusion 在 24 個基準中有 20 個超過 Hulu-Med、Lingshu 等開源醫療 MLLMs，也在 16 個比較裡有 13 個勝過 GPT-5.2 與 Gemini-3-Flash。盲測部分由 board-certified radiologists 進行，報告排名亦拿到最佳，RoI-grounded metric 與專家判斷的相關性也最高，這點比單看自動分數更有說服力。

可接受文字 prompt、2D 圖像路徑，以及 3D NIfTI volumes（.nii.gz）
定位不是通用聊天，而是臨床導向的整體醫療理解
核心取向是把 2D/3D 視覺編碼與臨床一致的評測一併重做
已公開模型推理方向，但儲存庫資訊未完整交代部署流程與完整安裝細節

較適合留意這個項目的，會是做醫療 AI、放射影像、多模態研究或醫療報告生成評測的團隊。它的亮點在於把「模型看見了什麼」與「臨床上是否講得準」放到同一條線上；限制亦很清楚，現有 GitHub 資訊主要集中在作者主張與推理輸入格式，真正要落地到醫院工作流，仍要再看公開模型、硬件需求與後續工具鏈是否齊備。

GitHub · 模型

Categories: 開源, 阿里巴巴, Qwen, Image, 3D, Medical醫學, 多模態模型, 模型, 中國, Dataset 數據集, 清華大學

FilmOps 將電影語言拆成可分析標籤

2026 年 7 月 28 日

一段影片好不好，不一定只靠整體觀感判斷；鏡頭遠近、構圖、機位、色調同運鏡，往往先係影響觀感的核心。FilmOps 正正瞄準呢個缺口：它不是一般影片生成模型，而是一套開源 operator suite，用來把影片畫面映射成結構化的 cinematographic labels，處理的是電影語言難以被細緻分析與量化的問題。

現有影片 benchmark 多數集中在 general perceptual quality、text alignment 或 temporal smoothness，對專業 cinematographic language 仍然偏粗略；general-purpose MLLMs 又難以穩定辨認 film-specific attributes，而 aesthetic predictors 這類領域模型面對 cinematic content 亦有明顯 domain gap。FilmOps 的取向很清楚：不用單一大模型包辦所有判斷，而是把六個維度拆開，按任務特性分配不同 backbone，令 shot scale、composition、camera angle、color & tone、character layout 同 camera movement 可以分別處理。

它的價值在於更像一套分析管線，而不是只給你一個總分。項目覆蓋 55 個以上子類別，分類定義對齊 Film Art、ASC Manual、Cinematography: Theory and Practice，亦經過 practitioner 驗證；加上 modular architecture，可以獨立用單一 operator，或者走 unified pipeline。對要做影片生成評測、鏡頭標註、資料整理，甚至研究 FilmBench 呢類 cinematic benchmark 的團隊，這種拆解方式會比泛用多模態評分更有解釋力。

屬於開源工具／模型組合，重點是把影片拆成電影語言標籤，而不是直接生成影片
六個 operator 採用 task-specific backbone，包含 DINO ViT-B/14、BEiT Base、ResNet-18、InternVL3-14B
支援 live-action、3D animation、2D animation 同 stylized content，強調 cross-genre consistency
已交代基本部署條件，包括 Python、PyTorch、CUDA 與 ffmpeg，也提供 unified pipeline 與 checkpoints 準備方向

現有資料只明確指出它在所有維度都勝過 general-purpose MLLMs，但細節主要放在論文。配套的 FilmBench 亦用同一套 Cinematic Language 思路建立 benchmark，並聲稱 evaluator 在模型排名上與人工評分高度一致，說明 FilmOps 並非只為展示而做，而是服務整個影片評測流程。不過它始終偏向分析與標註基建，想直接拿來做完整產品，仍要自行處理 checkpoints 下載、推理資源，並接受部分 operator 對 CUDA 與較重模型的依賴。

GitHub · Paper

Categories: 開源, 阿里巴巴, Gemini, NVIDIA, 3D, AI productions, Python, 動畫, 多模態模型, 語音, Dataset 數據集

ARI 用 RAG 修復韓國朝鮮古籍殘字

2026 年 7 月 28 日

最值得留意的，不是模型把缺字補回來本身，而是它專門處理古籍修復最棘手的一類內容：人名、地名等 Named Entities。ARI 屬於一個結合 Retrieval-Augmented Generation（RAG）的文獻修復框架，針對朝鮮王朝實錄與承政院日記這類韓文漢字史料，補足只靠局部語境時經常失準的缺口。

現有做法多數依賴 masked language modeling，擅長根據前後文猜測一般字詞，但一遇到需要外部史實支持的專名就容易失手。ARI 的取向很清楚：先用 BM25 從歷史語料找出前 20 份相關文本，再以字串相似度 0.8 過濾重複內容，將這些外部證據交給模型一併生成，修正通用 LLM 容易出現的幻覺。

模型部分不是從零開始，而是建基於 Qwen3 32B 與 Qwen3 8B 微調成 ARI-32B 和 ARI-8B，並加入 25% named entity-prioritized masking 訓練策略，把學習重點放在知識密集片段。論文亦指出，對漢字材料而言，詞彙層面的 BM25 檢索比 embedding-based retrieval 更有效，這一點頗有說服力，因為表意文字的字形與字詞對應關係本身就影響檢索效果。

適合歷史文獻整理、數位人文研究與古籍校勘團隊參考
主要強項在於修復需要外部知識支撐的 Named Entities
ARI-32B 與 ARI-8B 同步提供，前者追求表現，後者較重視運算成本
論文結果顯示，它在 named entity 與隨機遮罩字元修復都勝過多個基線與通用模型

把它視為一個已有公開模型與方法說明的研究項目。對需要先驗證效果的人來說，現階段較合理的路線會是先查看論文設定與模型頁面，再判斷是否足以接入自己的古籍修復工作流。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Embedding, RAG, 模型, 語音, Dataset 數據集

Page 1 of 12

1 2 3 … 12 Next »