香港 – Page 6 – InferNews

圖片編輯也要動腦？RE-Edit 幫 AI 學會看邏輯

2026 年 6 月 7 日

現時不少 AI 圖片編輯工具，表面上改得唯肖唯妙，細看卻經常出現「睇落合理、其實犯駁」的情況。來自浙江大學 ReLER Lab 與香港大學的團隊推出 RE-Edit，正是針對這個盲點而設計的基準測試。

RE-Edit 全名為 REasoning-aware image Editing，包含 1,000 個精選樣本，並劃分成五個推理維度：物理（physical）、環境（environmental）、文化（cultural）、因果（causal）和指涉（referential）。每一條題目都刻意設計成「畫面睇落合理，但忽略了潛在邏輯」的情境，用以測試模型能否理解指令背後的隱含限制。

配合基準，團隊亦提出輕量級的後修補方案 EditRefine。做法是先讓多模態大型語言模型（MLLM）診斷初稿失敗之處，再產生帶有思維鏈（chain-of-thought）的重新編輯指令，由原本的擴散模型執行。這個「診斷—重做」流程可以套用在 FLUX.2 Dev、Qwen-Image-Edit 等不同執行器上，毋須重新訓練底層模型。

整套系統以 YAML 設定檔驅動，輸出會保留原圖、初稿、EditRefine 修補稿、chain-of-thought 文本以及重新編輯指令，方便逐個維度比對。對從事 AI 圖像編輯研究、產品測試或內容審核的團隊而言，RE-Edit 提供了一個可量化邏輯錯誤的測試場；對一般讀者來說，它提醒我們「改張相」背後其實牽涉文化、物理因果等多重常識。

重點摘要

1,000 個樣本橫跨五個推理維度，專門捕捉「畫面合理但邏輯犯駁」的失敗案例。
EditRefine 以 model-agnostic 方式插入推理步驟，可搭配 FLUX.2 Dev、Qwen-Image-Edit 等不同模型使用。
評審採用 Qwen3-VL-30B 對 IF、SC 等指標作自動化判分。
設定檔以 YAML 管理，輸出包含初稿、refined 稿、CoT 文本與重編指令，方便追溯。
適合研究 AI 圖像編輯、內容審核及多模態推理的團隊作為統一基準。

GitHub： https://github.com/Yixuan-Ding-ZJU/RE-Edit

Categories: 開源, 香港大學, 影像處理, 框架

Audio-Interaction：讓 AI 像真人一樣即時聽與回應

2026 年 6 月 4 日

Audio-Interaction 是一款由南洋理工大學（NTU）、新加坡國立大學（NUS）及香港中文大學（CUHK）共同研發的全開源音訊語言模型，屬於新一代的 Audio Interaction Model（音訊互動模型）。它以一個始終運行的感知—決策—回應循環（perceive-decide-respond loop）為核心，能即時聆聽環境聲音與指令，並自行判斷何時應該開口回應。

傳統的大型音訊語言模型大多只支援離線處理，而現有的串流模型一般只能做單一任務，例如即時語音辨識（streaming ASR）或語音聊天。Audio-Interaction 以單一架構同時覆蓋離線與即時任務，把辨識、翻譯、對話等不同功能統一在同一條串流中。這意味著開發者只需要一套模型，就能應付多種音訊互動場景。

這個項目的核心創新在於其訓練流程 SoundFlow。它能把短音訊片段拼接成長互動資料，並以「塊級決策訓練」（chunk-level decision training）配合歷史回顧與語意感知的靜音處理，讓模型學會「該不該說話」。在推論階段，SoundFlow 採用異步 FIFO 推論（asynchronous FIFO inference），使首幀延遲降低約 4.5 倍，帶來更流暢的即時體驗。

使用時，開發者可以直接從官方頁面取得技術報告與程式碼，並透過微信群組加入社群討論。該項目亦提供了即時試聽 Demo，可與 OpenAI 的 gpt-realtime 及字節跳動的 Seeduplex 進行同條件比較，在重複聲響計數、咳嗽辨識及音樂風格判斷等場景中，Audio-Interaction 能逐輪輸出有意義的回應。

Audio-Interaction 重點摘要：

統一架構：以單一模型同時支援離線與即時音訊任務，涵蓋辨識、翻譯及對話。
感知—決策—回應循環：模型自行判斷回應時機，貼近真實人機互動節奏。
SoundFlow 訓練流程：結合資料拼接、塊級決策訓練與靜音感知，提升即時判斷能力。
低延遲推論：異步 FIFO 推論使首幀延遲降低約 4.5 倍。
完全開源：提供技術報告、程式碼及即時試聽 Demo，方便研究與應用。

這個項目特別適合從事語音 AI、對話系統及多模態互動研究的開發者與團隊，能為需要即時音訊理解的產品，例如智能助手、會議記錄、聽障輔助等，提供一個統一且靈活的基礎模型。

項目： https://xzf-thu.github.io/Audio-Interaction/

Categories: 開源, 香港中文大學, 模型, 模型訓練, 語音

DRDD：用兩階段拆解擴散模型，更省數據的圖像轉譯方案

2026 年 6 月 4 日

圖像到圖像轉譯（Image-to-Image Translation, I2I）涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務，傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models（DRDD）嘗試用一套架構同時處理這些任務，並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段：第一階段負責加入雜訊，達到所謂的「域調和」（domain harmonization）與流形抬升（manifold lifting）；第二階段則在固定雜訊下做決定性的殘差擴散，專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題，因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練，DRDD 在配對數據稀缺時仍能保持表現，這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試，涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集，並使用 LPIPS 等指標評估。論文亦提供理論與實證分析，說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師，尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上，以及 Conda。預訓練權重可從 Quark 或其他途徑取得，並依說明放入 ./pretrained_models 目錄。

重點摘要：
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段，保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據，降低對配對樣本的依賴。
– 相容主流擴散模型，可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構，鼓勵社群以現有擴散骨幹（如 DDPM 系列）進一步測試與延伸。

GitHub： https://github.com/HKU-HealthAI/DRDD

Paper： https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

GGT-100K：用十萬對真實影像拓寬圖像修復的泛化邊界

2026 年 6 月 2 日

過去訓練圖像修復模型時，開發者往往受限於合成數據與真實場景之間的差距；模型在實驗室數據集表現亮眼，遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生，由香港理工大學 OPPO 研究院共同推出，主打從 MFM（Multimodal Foundation Models）直接生成十萬對 LQ-HQ 配對資料，覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth（GT）」，再利用 MFM 推演對應的低品質版本，省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint，研究者只需在自有的修復模型上加掛 LoRA 或重新微調，就能測試跨域泛化效果；對工程團隊而言，等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

提供十萬對從 MFM 生成的 LQ-HQ 影像配對，涵蓋多元真實退化情境。
內建 baseline 訓練與推論程式碼，支援主流修復模型微調。
透過 Generative GT 策略，免除傳統人工蒐集配對的高昂成本。
數據集可從 Hugging Face 或百度雲下載，附完整 Construction Process 說明。
實驗結果顯示，模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現，作者在多個 SOTA（State-of-the-Art）MFM 上進行了修復評估，結果顯示加入 GGT-100K 訓練後，模型對未見過的真實退化樣本有更佳的適應力；具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發，或是想評估自家模型在真實世界表現的團隊，這份開源資源值得花時間一試。

GitHub： https://github.com/PolyU-VCLab/GGT-100K

項目： https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

Lumos-Custom：DAMO 學院的影片生成套件

2026 年 6 月 2 日

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集，把三個子項目整合在同一個儲存庫，方便研究者各自取用。三個子項目分別對應不同的影片生成難題：身份與屬性定制、打光控制，以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus （arXiv 2605.31603）。它解決了一個長期痛點：把大型高保真生成器放進統一訓練迴圈成本太高，改為訓練一個輕量的連接器對齊理解模組，再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器，既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白，作者還發布了 VR-Bench。

第二個項目是 LumosX，已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」：先用字幕與 MLLM 抽取的先驗建構關係結構，再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/，權重已上傳 Hugging Face。

第三個項目是 UniLumos（NeurIPS 2025），專注於圖像與影片的統一重新打光，採用 RGB 空間幾何回饋配合 flow-matching 主幹，適合需要控制光影的研究與應用場景。

總結要點：

** DAMO 是 Discovery, Adventure, Momentum and Outlook
Lumos-Nexus：輕量訓練搭配 UPFB 頻率交接，兼顧推理品質與視覺保真度
LumosX：以關係式注意力處理多主體個性化生成，附 benchmark 與 Hugging Face 權重
UniLumos：統一圖片與影片重新打光，採用 flow-matching 與幾何回饋
VR-Bench：補上推理驅動影片生成的評測缺口
子項目獨立部署：每個子項目都有獨立 README，支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果，可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論；想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub： https://github.com/alibaba-damo-academy/Lumos-Custom

項目： https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

minWM：由影片生成走向 World Model

2026 年 5 月 30 日

minWM 的定位很清楚：它不是再提供一個新模型，而是把建立 video world model 的整條流程拆開，讓人由 bidirectional T2V（Text-to-Video）或 TI2V（Text-and-Image-to-Video）基礎模型，一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說，這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」，而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程，並提供 example data、runnable scripts、Claude Skills 與新手知識整理，方便你先跟一次標準流程，再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題，在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作，背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制；minWM 正是把這些環節模組化，並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

支援 4-step DMD inference，並提到 multi-GPU sequence parallelism
可用 pose strings 或 JSON 檔控制 camera trajectory
提供 debug-world-model，整理 loss NaN、jitter、camera drift 等常見失敗模式
提供 integrate-new-backbone，示範怎樣接入新的 video DiT
參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B，亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式，也把團隊累積的排錯經驗與 Claude 協作流程寫進項目，令研究者或工程人員不只看到結果，還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models，並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程，若你想比較單一模型跑分，這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub： https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

UI-KOBE：幫手機代理先認路再操作

2026 年 5 月 30 日

Repository image for YuxiangChai/UI-KOBE

UI-KOBE 是一個面向手機圖形介面代理的項目，核心做法是先探索 Android app，再把畫面與操作路徑整理成狀態轉移圖。對非研究背景的讀者來說，可以把它理解成先替代理畫好地圖，之後代理就不用每一步都盲撞。

動手使用這個項目，需要先備好 Python 3.10、uv、Android SDK、adb、emulator，以及已安裝目標 app 的 Android Virtual Device，另外還要提供 VLM 服務憑證。它依賴 AITK，並可把產生的圖拿去配合 AITK 或 Android World 使用，所以較適合已經有 Android 自動化或代理測試流程的人。

這個項目解決的問題很明確：手機代理在 app 內工作時，容易因畫面變化、按鈕位置或流程分支而迷路。UI-KOBE 會先開啟 app、觀察畫面、選擇探索動作，再記錄結果；每個 app 狀態成為圖節點，能把狀態改變的操作變成邊，之後執行階段可先匹配當前畫面，再從附近路徑選下一步，必要時也可用 free-form fallback action 補位。

先建立 UI knowledge graph，再交給下游代理導航
可接到 AITK 與 Android World 代理流程
依靠 state-transition graphs 減少盲目點擊與重複探索
內含 explore、audit_graph、plot_graph 等腳本，方便檢查圖內容

從設計看，UI-KOBE 的創新點不在單一模型，而在把探索與執行拆成兩段：先累積 app 結構知識，再於 runtime 重用。儲存庫亦提到 UI-KOBE v2 runtime 會載入圖、比對當前畫面節點，再根據圖邊決策；這種做法在多步驟 app 任務中，理論上比純即時決策更穩。

就用途而言，這個項目很適合研究 Computer-use agents（CUAs）、mobile GUI agents、Android 任務代理。

GitHub： https://github.com/YuxiangChai/UI-KOBE

Categories: 開源, 香港中文大學, Agentic, 框架

GenClaw 用寫程式方式改造 AI 生成圖

2026 年 5 月 29 日

GenClaw 是一個研究中的項目，核心不是不停改 prompt，而是把程式碼變成可控制的視覺草稿，再交給圖像模型完成渲染。對一般讀者來說，可以把它理解成先畫草圖、定位置、排文字，之後才交由 AI 上色和補質感。

這個項目想處理的痛點很明確：很多 image generation 流程仍然像黑盒，生成失敗時只能反覆重寫提示詞碰運氣。GenClaw 將流程拆成 concept、sketch、render 幾步，令畫面中的物件數量、空間配置，甚至文字排版，都有機會透過可執行程式直接調整。

這做法結合搜尋、推理與程式繪圖，使用 SVG、HTML/CSS、Python，亦提到 Three.js 這類輕量 3D 方式來建立中間畫布；最後再調用 image generation model 補上材質、光影與真實感。這種設計比單次生成更容易檢查、修改，亦較貼近人類由草稿到完稿的創作步驟。

把程式碼當成視覺畫筆，而非只靠文字提示
適合複雜場景、海報文字、空間佈局等要求較高的畫面
中間結果可檢查與回退，降低黑盒生成的不確定性
論文提到可配合 GPT-Image、Qwen-Image、Nano-Banana 一類模型理解其定位

現階段要留意的是，儲存庫已公開 technical report，但 code 和 demo 仍在準備中，所以目前較適合先讀論文了解方法，再觀察後續釋出。從論文描述看，它較適合做視覺生成研究、代理系統開發，或者需要高控制度圖像流程的團隊；至於效能評估，公開頁面以方法與示例為主，較完整的量化表現仍需以論文內容和日後程式發布為準。

GitHub： https://github.com/yejy53/GenClaw

Paper： https://arxiv.org/pdf/2605.30248

Categories: 開源, 香港中文大學, Agentic, 清華大學

EvalVerse 評估電影畫面美感、演出、鏡頭語言評測

2026 年 5 月 28 日

EvalVerse 是一個用來評估電影感生成影片的項目，重點不只看結果是否跟提示詞相符，亦會檢查畫面美感、演出、鏡頭語言和聲畫配合。對近年愈來愈多生成影片項目來說，它補上了「生成得對」與「生成得好」之間的落差。

EvalVerse 會先按電影製作流程理解評分架構，再用提示詞、參考圖或參考影片建立測試組合，之後配合人工標註與機器評估比較結果。論文把指標拆成前期、拍攝、後期三個階段，覆蓋 7 個面向、18 個主維度、45 個子維度和 196 條判準。

• 評分更細：不只看是否跟題，亦會看構圖、鏡頭大小、節奏、表演與聲音設計。
• 覆蓋更廣：支援文字生成影片、參考生成影片、多鏡頭影片及帶聲音影片。
• 可信度更高：加入大規模人工標註，再用專家判斷校準 VLM，縮窄機器評分與人眼感受差距。
• 用途更實際：除了排名，亦能提供診斷訊號，方便後續調整模型、獎勵模型或評估代理。

這項目特別適合做生成影片模型、影片工作流程工具或品質評測的人參考；如果你想比較不同系統，它也比單純看排行榜更有資訊量。論文重點在評估方法和資料整理，未見大量公開的生成表現數字，所以較適合作為評測基建，而不是單一分數工具。

EvalVerse 主要使用兩類模型：生成影片基礎模型，以及 Vision-Language Models（VLMs）。後者在這個項目中負責吸收專家評分經驗，作為機器評估的核心。

Paper： https://arxiv.org/pdf/2605.23271

Categories: 香港中文大學, 香港科技大學

MobileGym：手機操作測試搬到瀏覽器

2026 年 5 月 27 日

MobileGym — Program Mobile Worlds. Train GUI Agents. Verify by State. A verifiable and highly parallel simulation platfo

MobileGym 是一個放在瀏覽器內運行的手機模擬環境，重點不是做出一部「像真手機」，而是讓研究者可以穩定測試手機操作代理。它針對真機與模擬器常見的難題，例如狀態難以重現、評分不穩、成本高，提供一套較可控的做法。

使用相當直接：先開啟模擬環境，再把代理接上去執行任務，之後用內建評分函式檢查有沒有完成目標。這個項目提供 28 個模擬 app、416 個任務模板，也支援把整個環境狀態存成 JSON，方便重設、比較與重跑同一組測試。

MobileGym 在「結果驗證」不靠模糊文字比對，也不依賴視覺模型做人手味很重的判斷，而是直接檢查結構化狀態。這代表系統不止能知道任務是否成功，還能發現副作用，例如錯誤追蹤了某個帳戶，或誤發訊息，這類情況在真機流程往往較難完整看見。

支援 256 個並行實例，同一台伺服器可同時跑大量測試
每個實例約 400 MB 記憶體，冷啟動約 3 秒
評分為可程式化且具決定性，官方稱可達亞毫秒級
已展示模擬到真機的轉移效果，保留約 95.1% 的訓練增益

性能數字是這個項目的另一個賣點：官方資料指 256 個任務的完整評估可在約 6 分鐘完成，而且 CPU 佔用不高。對需要反覆訓練、比較不同策略或模型的人，例如 Qwen3-VL-4B 搭配 GRPO 這類流程，這種可並行、可重現的設計比單靠真機測試更實際。

整體來看，MobileGym 適合做手機 GUI 代理研究、評測流程設計，以及強化學習訓練驗證。它未必取代真機，但作為前期迭代與大規模評估平台，定位十分明確；尤其當你重視可重現性、成本控制，以及能否清楚知道代理到底做對了甚麼、又做錯了甚麼，這個項目值得留意。

GitHub： https://github.com/Purewhiter/mobilegym

Categories: 開源, 香港中文大學, 北京大學, 框架

Page 6 of 12

« Previous 1 … 4 5 6 7 8 … 12 Next »