微軟 – InferNews

Microsoft Mage：4B 多模態輕量路線

2026 年 7 月 31 日

當你想喺有限 GPU 預算下做影像生成、編輯，甚至延伸到影像與影片理解，Mage 這個開源模型家族的定位就相當直接：用固定 4B 參數規模，處理多模態理解與生成兩條路線，目標唔係堆大模型，而係保留研究可控性同部署可行性。

Mage 目前最完整的是 Mage-Flow，屬於模型家族中的生成與編輯分支。它把 Mage-VAE 同 Native-Resolution Multimodal Diffusion Transformer 組合起來，前者負責更高效率的 latent tokenizer，後者負責文字生圖與指令式修圖；同時提供 Base、RL-aligned 同 4-step Turbo 版本，方便按畫質、對齊程度與速度取捨。另一條線 Mage-VL 對準 image/video understanding，但程式與權重細節仍待釋出。

同類開源影像模型很多都靠更大參數量換效果，Mage 的判斷明顯不同：它把重點放喺 codec-aligned efficiency，同一個 checkpoint 已可覆蓋 512 到 2048、不同長闊比，連 4:1 這類極端尺寸都原生支援，減少多套模型或額外縮放流程。它在生成、編輯表現上可與 Qwen-Image 20B、FLUX.2 32B、FireRed-Image-Edit 20B 等較大型開源系統競爭，但取捨是 Mage-VL 仍未完整開放，整個家族現階段更適合關注研究與工作流整合的人先行評估。

Super fast Image Edit model Mage-Flow on 8GB VRAM

Watch this video on YouTube

固定 4B 規模，主打可訓練、可微調、可部署
Mage-Flow 已覆蓋 text-to-image 與 instruction-based image editing
Mage-VAE 以更低 encode/decode MACs 減輕高解析度瓶頸
單一 checkpoint 支援 512–2048 與多種 aspect ratio
Turbo 版本強調速度，1024² 在單張 A100 有明確推理數字

部署與測試方面，現有資料顯示 Hugging Face 已提供多個 Mage-Flow 與 Mage-Flow-Edit 權重，適合先用現成 checkpoint 驗證生成、修圖與速度，再決定是否進一步做微調。對做垂直領域影像項目、想研究後訓練方法，或者需要把高解析度生成放入較實際算力條件的人，Mage 的吸引力不在花巧包裝，而在它用一條輕量路線，把研究、性能與部署成本拉回較平衡的位置。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 微軟, Stable Diffusion, Video, Image, Medical醫學, txt2img, 多模態模型, 影像模型, 影像處理, 模型, 視覺模型

FinanceComplexQA 點評：金融長文件問答基準

2026 年 7 月 26 日

金融問答最容易失真的位置，不是模型識唔識術語，而是它會否真正在整份參考文件入面推理、比對同計數。FinanceComplexQA屬於數據集／Benchmark，焦點不是背答案，而是檢驗 LLMs 和 agents 能否根據完整 reference documents 回答複雜金融問題。

它修正了只靠 parametric knowledge 或抽取單一段落的評測範式。作者把重點放在 document-grounded complex financial QA，要求答案同問題及原始文件一致，並涵蓋 multi-hop reasoning、numerical calculation、comparison、implicit inference、planning、summarization 同 evidence-grounded verification，對 RAG、Agentic workflow 同長文本閱讀能力都有參考價值。

資料結構本身亦有取捨。FinComplexQA-Pro 收錄 2,026 組獨立 QA，按語言、金融場景與任務分類組織；同一題會以 scene_categories 與 task_categories 兩種視角出現，所以總記錄視圖有 4,052 筆。另有 overall 提供 agent_answer、agent_thinking 及 LLM-as-a-judge 分數，但這些分數只適合做診斷訊號，不能當 ground truth。

支援中文與英文，但兩個子集覆蓋的文件領域不同，schema 亦不完全一致
較適合逐個子目錄讀取 JSONL，而不是一開始合併全部資料
可用 exact match、數值容差、F1、semantic similarity 等方法比對輸出
附有 Reference_documents，方便追查 PDF 與 LaTeX 原文證據

部署和測試的理解方式相當直接：資料主要在 Hugging Face 發佈，研究團隊可先挑單一語言、單一 task category 載入，再把模型輸出對照 gold answer 或文件證據做評估。它較受惠於做金融 RAG、長文件 QA、Agent 評測或雙語研究的團隊；要留意的是金融事實具時效性，而且項目已明確標示僅供研究與評估，不應延伸成投資、會計、法律或財務建議。

項目主頁 · GitHub · Paper

Categories: 開源, 微軟, DeepSeek, Agentic, RAG, 多模態模型, 中國, Dataset 數據集

AMID 把醫學影像建模流程交畀代理協作

2026 年 7 月 15 日

醫學影像建模最麻煩的位，往往唔係只係揀網絡，而係每個任務都有唔同資料形態、指標、切分規則同提交要求。AMID把呢個痛點拉到枱面：它屬於一個 autonomous multi-agent framework，目標唔係產生一段建議文字，而係交出可訓練、可推理、可驗證、可提交的完整模型產物。

現有通用 MLE agent 往往沿用比較粗略的搜尋與試錯範式，先提方案、再寫碼、再靠結果反覆修補；作者認為放到醫學影像場景，呢種做法容易忽略資料條件、驗證協議同提交格式。AMID改用 Data-Conditioned Method Planning，先按任務資料與可運行資源整理出可執行的 method lanes，再用 Verification-Guided Two-Stage Optimization 由早期廣泛探索，轉去後期集中追蹤有潛力路線，同時持續檢查 metric computation、validation protocol 同 prediction artifacts。

呢種取向的差異，在於它把「做得出分數」同「流程可核對」放埋一齊處理。對醫療 AI 團隊、挑戰賽參賽者，或者要同時管理 2D 影像、3D volumes、segmentation masks、class labels 等異質資料的人，AMID的吸引力在於減少人手串接流程的時間；代價是它目前仍以技術報告與任務解法報告為主，README亦寫明 source code 尚未釋出，暫時未到可以直接部署測試的階段。

效能方面，AMID用 ReX-MLE 的 20 個 medical imaging challenge tasks 做基準，比較對象包括一般用途 MLE systems，同時拿 human-designed challenge solutions 作參照。作者指出它整體表現優於被評測的通用系統，部分任務接近或追平人手設計方案；現階段較適合把它理解成一套清晰的方法論與工作流藍圖，而唔係即裝即跑的開源工具。

核心定位係 autonomous multi-agent framework，處理醫學影像模型開發與驗證交付
主要方法包括 Data-Conditioned Method Planning 同 Verification-Guided Two-Stage Optimization
輸出唔止模型建議，仲包括 training code、inference code、weights、prediction files 同 audit trail
基準測試來自 ReX-MLE 的 20 個任務，整體表現優於通用 MLE systems
目前已公開 technical report 同 20 份 solution reports，source code 尚未發布

相關模型與系統脈絡方面，AMID直接對比的是 general-purpose MLE systems，同時以 human-designed challenge solutions 作為高水位參考。它未有把重點放在單一 backbone 或某個固定醫學影像模型，而是把多代理規劃、優化與驗證流程包成可重複的方法，呢點比單次調參工具更值得留意。

GitHub · Paper

Categories: 開源, 香港, 香港中文大學, 微軟, Agentic, Image, 3D, Medical醫學, 多模態模型, 影像處理, 模型訓練, Dataset 數據集, 框架

IdeasHaveGenomes：用血統追蹤科研點子

2026 年 7 月 10 日

只會搵相似論文，已經唔足夠判斷 AI scientist 是否真係理解研究想法。IdeasHaveGenomes 把科學點子當成有 lineage 的對象去看，屬於 benchmark／數據集類型的項目，針對的正是 Auto Research 入面最難驗證的一環：模型能否講清楚一個 idea 由邊度嚟、點樣修補舊限制，最後點解值得延伸。

現有做法好多時集中在 related paper retrieval、proposal writing，或者用開放式生成結果做人手印象分。作者認為呢種範式捉唔到 inheritance tracing 同 evolutionary reasoning，所以提出 IdeaGene-Bench（IG-Bench），把任務分成封閉式測試 IG-Exam，同埋用 Population-Evolution Score（PES）評分的 IG-Arena，前者問理解是否精準，後者先看生成內容有冇 lineage 根據。

項目的可取之處，在於它唔只問「像不像新點子」，而係追問 Heredity、Variation、Selection 有冇成立。資料規模亦算完整，包括 1,961 條 golden lineage traces、1,085 個 Idea Genome objects、920 筆 GenomeDiff records，覆蓋 10 個 scientific domains；IG-Exam 進一步拆成 42 類 task、1,029 個 closed-form instances，適合做可重覆比較。

IG-Exam 主要測 abstraction、inheritance tracing、evolutionary reasoning、lineage verification
IG-Arena 針對開放式提案生成，用 PES 檢查血統延續與變化是否合理
項目可用 OpenAI-compatible API 跑 smoke test 或完整評測，不一定綁死單一模型
現有結果反映難度高，最佳 IG-Exam exact accuracy 只有 27.3%，最佳 T4 verification 為 17.4%
榜單涵蓋 GPT、Claude、Qwen、Gemini、DeepSeek，以及 AI Scientist v2、Codex、Claude Code 等系統

部署理解上，這不是拿來直接替代研究助手的成品工具，而是用來測試模型或 agent workflow 是否真的具備「科研點子血統推理」能力。較適合做 AI scientist、research agent、proposal generation pipeline 的團隊評測基準；想比較不同模型、judge 組合，或者檢查生成提案有冇沿住正確 lineage 發展，這個項目比一般文字基準更有辨識度。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 微軟, Gemini, DeepSeek, OpenAI, Agentic, API, Anthropic, 中國, 框架, Dataset 數據集

GitHub Copilot 桌面 app 全面開放

2026 年 7 月 10 日

寫程式想快啲進入 agent-driven development，而家門檻低咗好多。GitHub Copilot app 已經開放畀所有 Copilot 方案使用，涵蓋 Copilot Free 同 GitHub Education，並且支援 macOS、Windows 同 Linux，等開發者可以直接由桌面開始工作。

對一般開發者而言，重點唔只係「多一個 app」，而係登入 GitHub 帳戶後，幾下點擊就可以開 session，將 Copilot 由編輯器內的輔助，延伸到更完整的桌面互動流程。呢個變化對想集中用單一入口管理開發節奏、快速試 agent 工作方式的人會更有吸引力。

另一個取向幾清楚：就算冇訂閱 Copilot 方案，仍然可以用 bring your own key（BYOK）接上自己嘅 model provider 跑 session。即係話，GitHub 將入口開放得更闊，一邊照顧現有 Copilot 用戶，一邊容許偏好自選模型供應商嘅團隊或個人保留彈性。

所有 Copilot 方案都可使用，包括 Copilot Free 同 GitHub Education
支援 macOS、Windows、Linux 三個桌面平台
可用 GitHub 帳戶直接登入並快速開始 session
冇 Copilot 訂閱亦可透過 BYOK 連接自有 model provider
Business 或 Enterprise 方案需由管理員啟用 Copilot CLI 政策設定

對團隊環境來講，Business 同 Enterprise 用戶仲要留意權限設定：組織或企業管理員需要先在 policy settings 啟用 Copilot CLI，先可以存取 GitHub Copilot app。呢點反映出 GitHub 既想擴大可用範圍，同時亦保留企業管理所需的控管方式。

項目主頁

Categories: 微軟, Agentic, API, Linux, Mac, 編程

GitHub 規則集新增審核撤銷權限控制

2026 年 7 月 9 日

當團隊依賴 pull request 審核去把關程式碼質素時，最怕唔係冇人批核，而係批核已經完成後，任何唔合適嘅人都可以把審核撤銷。GitHub 今次更新屬於 repository rulesets 功能強化，處理嘅正正係合併前權限邊界唔夠細緻呢個問題。

新設定放入 Require a pull request before merging 規則之中，管理者可以直接指定邊啲 users、teams 同 apps 能夠 dismiss reviews。對比以往較寬鬆或者分散嘅管控方式，呢種做法將審核撤銷權限收返去規則集內統一管理，分支保護流程會更清晰。

重點整理：
– 可限制特定 users、teams、apps 撤銷 pull request reviews
– 設定位置已整合到 repository rulesets 既有審核規則內
– 可透過 UI、REST API 同 GraphQL 配置
– 功能已經 generally available，適用於 github.com 上嘅 repository rulesets

呢個更新最適合有多人協作、需要明確審批責任，或者要配合內部治理要求嘅開發團隊。Rulesets 本身已經係 GitHub 建議用來保護 branches 嘅方式，而家再加上審核撤銷限制，等項目喺合併前多一層可追蹤、可控嘅流程保護。

使用上做法唔複雜，只要打開 repository-level ruleset，啟用 Require a pull request before merging，再選擇 Restrict who can dismiss reviews 就可以。呢類更新唔係花巧功能，而係直接改善日常協作入面最常見嘅權限管理細節。

項目主頁

Categories: 開源, 微軟, API, 軟件, 安全, 教學

OmniRoute：免費 AI 路由閘道值唔值得用

2026 年 7 月 9 日

寫程式最怕做到一半先撞到配額上限，或者工具只綁死某一個模型。OmniRoute 把自己放在 AI gateway 呢個位置，直接處理多個 AI coding 工具同多個模型供應商之間的路由問題，重點唔係再造一個聊天介面，而係幫你維持請求可用、控制成本，並用 auto-fallback 減少中斷。

同類做法通常會主打單一 API 聚合，OmniRoute 的取向明顯更偏向「免費額度整合 + 路由策略 + 壓縮節流」。它聲稱可接到 237 個 providers，當中 90+ 提供 free tiers，並以 RTK + Caveman compression 把 token 消耗壓低 15% 至 95%。呢個方向的好處係對長提示、程式碼上下文同重複輸出較有幫助，但壓縮始終係取捨，所以它加咗 inflation guard，遇到壓縮後反而變長，就會送回原文。

OmniRoute + OpenCode: 100% Free AI Coding Setup, Free AI Gateway

Watch this video on YouTube

New FREE Unlimited AI Coder | OmniRoute

Watch this video on YouTube

你可以把它理解成放在 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity 後面的中介層。部署後，工具經同一個 endpoint 出請求，再由 OmniRoute 分配到 Claude、GPT、Gemini 及其他供應商；README 也提到每個模型會列出本月已用與剩餘額度，並標示 provider terms，這點對團隊控管比較有用。

幾個值得留意的重點：
– 定位屬於工具 / 閘道型軟件，解決的是多模型切換、免費額度整合同配額中斷
– 支援 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity，適合多工具並行的開發流程
– 以 documented free tokens/month 作招徠，現有資料提到穩定約 1.6B，首月可到 2.1B
– 內建 17 routing strategies，並加入 auto-fallback，減少單一 provider 失效帶來的停頓
– 壓縮模組已針對 German、French、Japanese、Chinese，以及 Gradle、.NET 輸出做過強化

受益最大的一般會係重度依賴 AI 編碼助手的個人開發者、細團隊，同想把成本壓到最低的實驗性項目。要留意的是，免費池本身受各 provider 條款影響，OmniRoute 雖然強調統計方式較透明，但效能與穩定性仍然建基於外部服務；它較像一個把資源調度做得更聰明的控制層，而唔係保證品質一致的模型平台。

GitHub

Categories: 開源, 微軟, Gemini, API, 工具, IDE, Vibe Coding, 編程, Anthropic

微軟 ResearchStudio：AI 助你研究你的方案

2026 年 7 月 7 日

ResearchStudio 的核心任務是把大型語言模型（Large Language Model, LLM）變成研究流程中的協作角色，從構思、文獻搜尋到成稿後的展示素材皆涵蓋在內。它由兩個互補的子項目組成：ResearchStudio-Idea 處理「論文前」階段，協助將尚未成形的研究方向轉化為可辯護的構想；ResearchStudio-Reel 則處理「論文後」階段，把已完成的 PDF 轉成海報、旁白影片、雙語部落格文章及互動式摘要頁面。

傳統的 LLM 輔助構思多半只停留在「生成候選題目」這一層，研究人員仍須自行補上文獻脈絡、辨識瓶頸、區隔既有方案並評估風險。ResearchStudio-Idea 對此提出的修正做法，是從 2021 至 2025 年間 ICLR、ICML、NeurIPS 共 1,947 篇論文中歸納出 31 個反覆出現的構思子模式，再收斂成 15 個可重用的構思模式（ideation patterns），每張模式卡都附帶研究脈絡、瓶頸類型、差異化策略、支援先例與常見失敗模式。這樣的設計讓 IdeaSpark 能以「證據整備度評估 → 脈絡重建 → 瓶頸辨識 → 模式選擇 → 候選生成 → 衝突檢索 → 結果導向稽核」七個步驟，把抽象模式轉化為可追溯的研究提案。

套件內另外兩個獨立技能 Paper-Search 與 Scoop-Check 分別負責多源文獻搜尋與新穎性碰撞檢查，讓構思過程中對「現有方法如何做」與「作者為何不同」這類對比能即時取得佐證。和坊間通用寫作助手相比，ResearchStudio 的差異在於把會議投稿結果（包含口頭報告、高引用子集與被拒稿件）當作訓練素材，使生成的構想能對照真實的審稿標準。技能以 Claude Code 與 Codex 為執行環境，透過 install.sh 即可建立符號連結並完成環境配置。

適合的對象包括需要快速整理文獻的研究生、準備投稿 ML 會議的團隊，以及希望把既有論文包裝成海報或短片的學術機構。對會議投稿文化熟悉的讀者會更容易判斷模式卡的適用邊界；而非 ML 領域的使用者則可借鏡其「以證據為基礎的構思流程」這套方法論。兩篇 arXiv 論文（Idea: 2607.04439、Reel: 2607.04438）分別詳述技術細節與評估方式，值得在採用前先行閱讀。

重點摘要：

全流程覆蓋：從模糊研究方向到論文發表後素材生成，由 Idea 與 Reel 兩個子項目分工處理。
基於會議資料的模式庫：以 1,947 篇 ICLR、ICML、NeurIPS 論文歸納出 15 個可重用的構思模式。
可追溯的構思步驟：七階段工作流程將抽象模式轉為具備文獻佐證的研究提案。
獨立技能模組化：Paper-Search 與 Scoop-Check 可單獨用於文獻搜尋與新穎性檢查。
依賴 Claude Code 與 Codex：需在這兩種 AI 編碼環境中執行，門檻偏向熟悉 LLM 工具鏈的研究者。

項目主頁 · GitHub · Paper

Categories: 開源, 微軟, Agentic, Dataset 數據集, 框架

OpenMontage：AI 代理拍片流程

2026 年 7 月 2 日

OpenMontage 是一個開源、Agentic 的影片製作工具型項目。它的核心任務是把研究、寫稿、素材生成、片段檢索、剪輯到輸出成片串成同一條流程，讓 AI coding assistant 代為協調整個製作過程。

這個項目最值得留意的地方，在於它不把「幾張靜態圖加動畫」當成影片的唯一做法。它亦會從免費 stock footage 與公開影像檔案建立 corpus，抽取真正的 motion clips，再放入時間線完成合成，取向上比純 txt2img 或 image-to-video 工具更接近剪輯工作流。

部署理解上，現有資料顯示它依賴 FFmpeg，以及 Claude Code、Cursor、Copilot、Windsurf、Codex 這類 AI coding assistant。換句話說，它不像一般單一網頁服務，更像一套由代理驅動的製片管線；測試時較合理的方式，是先用簡單 prompt 驗證腳本規劃、素材來源、成本預估，再觀察最後能否穩定輸出可看的 timeline 與成片。

定位清晰：多個生成與剪輯步驟接駁起來的工作流工具。
差異明顯：支援真實影片片段檢索與編排，不只依賴靜態圖轉影片。
適合情境：內容創作者、小型 marketing 團隊、需要快速做樣片的創意項目會較受惠。
取捨存在：自由度高，但效果會受可用模型、素材來源與代理穩定性影響。

它可保留參考影片的節奏、hook style、結構與 tone，同時改動主題、畫面處理、切入角度與旁白方式，亦會在素材生成前估算目標片長成本。性能數字與正式 benchmark 暫未見完整公開，因此現階段較適合視為早期但方向鮮明的製片自動化項目；相關模型與服務例子包括 Veo，以及配合 AI coding assistant 與 Remotion、FFmpeg 一類組件完成輸出。

GitHub

Categories: 開源, 微軟, Agentic, Video, Image, Content Creator, IDE, txt2img, Anthropic

微軟用殘差強化學習補強機械人 VLA

2026 年 6 月 30 日

這是 Microsoft Research 的 Object-Centric Residual RL 方法。它的用途是為 Vision-Language-Action（VLA） 模型加入一層修正策略，減少機械人在真實操控中因細小誤差累積而失手的情況。

核心做法是把一個已凍結的 base VLA 保留不變，再額外疊加一個輕量 residual policy。這個 residual policy 完全在模擬環境訓練，輸入不是原始影像，而是 object-centric state、proprioception，以及 base VLA action，藉此避開常見的 visual sim-to-real gap，令策略可直接 zero-shot 轉移到真實機械人。

這個方法處理的是 imitation learning 常見的脆弱性：示範資料未覆蓋到的狀態一旦出現，誤差會一路放大。與直接微調 VLA、或在真實世界再做 reinforcement learning 相比，這個方法的差異在於只學「修正量」，而且訓練放在模擬中完成，成本與風險都較低。

保留 frozen base VLA，不用重訓整個模型
residual policy 以物件中心狀態為主，減少依賴影像對齊
目標是 zero-shot sim-to-real enhancement
適合需要精準抓取、放置或接觸操作的機械人工作流

這類方法較適合關注 VLA、Robotic 與 sim-to-real transfer 的研究者和開發者。現有資料清楚交代方法方向與問題設定，但未提供完整安裝流程或操作步驟；評估部分可確認作者以真實機械人成功率改善作為重點，更多數值細節仍需參考原始論文。

項目主頁 · Paper

Categories: 微軟, Agentic, Image, AI productions, 多模態模型, 安全, 編程, 視覺模型, Robotic, 框架, VLA

Page 1 of 2

1 2 Next »