香港 – Page 8 – InferNews

AlphaGRPO：能自我修正的多模態生成

2026 年 5 月 17 日

AlphaGRPO 係一個用喺原生統一多模態模型嘅訓練框架，重點係令模型唔只係「生成」，而係會根據提示主動推理，並喺輸出有偏差時嘗試自行修正。網頁內容指出，佢主要面向文字生圖同相關編輯場景，目標係改善細節理解、構圖一致性，同埋對隱含要求嘅掌握。

呢個方法特別之處，在於將 GRPO 引入 AR-Diffusion 類型嘅統一模型，而且唔需要額外 cold-start 階段。另一個核心設計係 DVReward：先將複雜指令拆成多個可核實嘅細問題，再由開源多模態模型按語意對齊同畫面品質提供較穩定、可解釋嘅回饋，避免只靠單一分數太過籠統。

如果你想理解點樣使用，概念上可以當佢係一種訓練或強化現有多模態生成模型嘅方法，而唔係一般終端用家即開即用嘅 App。較適合研究人員、模型工程師，或者需要改善文字生圖、細粒度屬性控制、影像編輯泛化能力嘅團隊參考同實作。

支援推理型文字生圖，能更主動補足用家未明講嘅意圖
可做自我反思式修正，生成後再檢查並調整錯配內容
回饋機制較細緻，將要求拆解成可驗證項目再評估
在多個生成基準上有一致進步，亦可遷移到編輯任務
推論階段加入自我修正後，文中指最高可再提升 5.8%

就評估結果而言，頁面提到 AlphaGRPO 喺 GenEval、TIIF-Bench、DPG-Bench、WISE 等生成基準，以及 GEdit 編輯任務都有提升，而且編輯能力並非靠專門編輯訓練得來，反映泛化表現不俗。不過，具體效果仍應按模型底座、評測設定同實際資料而定。

訓練程式碼和模型權重目前正在進行內部審核，審核通過後將予以發布。

網址： https://huangrh99.github.io/AlphaGRPO/

Categories: 開源, 香港大學, 字節跳動, 影像模型, 影像處理, 框架

ODE點樣訓練識睇圖又識搜尋的AI代理

2026 年 5 月 17 日

如果你對「會自己搵資料的 AI」有興趣，ODE 係一個幾值得留意的研究型專案。它唔係單純訓練模型直接輸出答案，而係讓代理按步驟去搜尋網頁、找圖片、查看學術結果，甚至對圖片放大、旋轉或翻轉，再整理證據作判斷。

對初學者來講，可以先將它理解為一個「工具操作訓練場」。專案目前已提供訓練程式、評估環境同公開工具整合，重點係同一套流程可同時用於測試與強化學習；不過自動化資料演化部分現時似乎仍在逐步補完。

它想解決的核心問題，是傳統靜態訓練資料未必足夠教到代理點樣靈活使用工具。ODE 的做法，是先用監督式訓練教基本動作格式，再用強化學習讓代理在真實互動中調整策略，之後分析操作軌跡，找出行為缺口，再回頭改善下一輪訓練資料。

比較特別的是，它把中途見過的圖片保存成可重用參照，之後可以再裁切、檢視或做視覺搜尋，唔使每次由零開始。這種設計對需要圖文交叉查證的任務尤其重要，亦比只靠文字搜尋的代理更貼近真實使用情境。

支援多種工具流程：網頁搜尋、圖片搜尋、學術搜尋、瀏覽頁面、視覺搜尋與本地圖片操作
著重保留中間圖像證據，方便後續步驟重用
訓練方式結合 SFT 與 RL，並用操作紀錄反推資料改進方向
已展示在 Qwen3-VL-8B 與 Qwen3-VL-30B 這類視覺語言模型上的提升

如果你本身做 AI 代理、檢索增強系統，或者關心模型如何可靠地「邊找邊想」，這個專案會有參考價值。對一般讀者而言，它亦提供了一個清楚例子：未來較實用的 AI，未必只係更大模型，而係更懂得在圖像與文字之間有條理地找證據。

網址： https://github.com/JoeYing1019/ODE

網址： https://on-policy-data-evolution.github.io/

Categories: 開源, 香港科技大學, Agentic, 框架

PyRAG：多跳推理RAG值唔值得留意

2026 年 5 月 16 日

PyRAG看起來是一個以 Python 為主的 RAG 實驗專案，重點不是搜一次資料就作答，而是把檢索、推理、再檢索拆成可執行流程。對一般讀者來說，可把它理解成較重視「答案點樣得出來」的問答系統。

實際使用時，通常會先接入文件庫、知識庫或程式碼內容，再讓系統按問題逐步找線索，最後整理成答案。遇到要前後串連資訊的問題，例如先查概念、再補細節、最後整合結論，這類多跳流程會比普通 RAG 更合適。

做什麼：把檢索增強生成變成多步查找與推理
主要創新：中間步驟可追蹤，較易查證與除錯
適合場景：複雜問答、研究助理、文件或程式碼知識庫
相關模型：概念上可配合 GPT、Llama、Mistral 等生成模型，以及 BGE、E5 類嵌入模型；實際支援要看設定

我覺得它最吸引的地方，是不像一般聊天機械人那樣直接「估答案」，而是更像逐步查證。對想減少模型亂作、又要向同事交代答案來源的人，這方向特別有價值。

不過，從公開描述看，PyRAG較像研究型工具，實際兼容名單與部署成熟度仍要自行核對。若你只想快速搭一個簡單問答系統，傳統 RAG 可能更省事；若你重視可追溯性，它就值得留意。

網址： https://github.com/GasolSun36/PyRAG

Categories: 開源, 香港科技大學, RAG, 框架

PASA：AI改寫都難甩的文字水印方案

2026 年 5 月 13 日

PASA 是一個研究型專案，目標是替大型語言模型生成的文字加入可檢測的「水印」。它特別針對一個常見難題：即使用家把句子改寫、換同義詞，甚至做段落重述，只要意思大致不變，系統仍希望辨認到這段文字原本由 AI 產生。

和不少只看字面詞彙的做法不同，PASA 把重點放在語意層面。簡單講，它不是只標記某些字，而是利用嵌入空間中的語意群組去安排生成與檢測，因此面對 paraphrase 這類「保留意思但改寫表達」的攻擊時，理論上會更穩定。

實際使用上，這個儲存庫主要提供研究重現流程：用 generation.py 進行生成與檢測，並配合語言模型、輔助模型、本地資料集及一份 token 對應語意群組的映射檔來跑實驗。換句話說，它比較適合研究人員或進階開發者驗證效果，而不是一般用家即裝即用的成品工具。

重點可簡單整理如下：
– 針對 AI 文字加入可檢測水印，並強調抗改寫能力
– 核心創新是把水印放到語意嵌入空間，不只看表面用字
– 設計目標包括提升檢測穩定性，同時盡量維持文字品質
– 儲存庫提供官方實作，重點在實驗重現與結果驗證

如果你的場景是內容來源追蹤、平台風險管理，或學術上研究 AI 文字識別，PASA 會很值得留意。相反，若你只是想快速做網站內容偵測，這個專案目前看來仍偏研究導向，需要自行準備資料與模型環境。

從論文與專案說明來看，PASA 的價值不只在「能不能驗出」，而是在改寫攻擊下仍保持可檢測性，這點對現實應用尤其重要。不過它是否適合你的流程，仍要視乎你有沒有能力配置實驗環境，以及是否需要面對高強度的語意改寫情境。

Source: https://github.com/ai-kunkun/PASA

Categories: 開源, 香港科技大學, 框架

CausalCine 多鏡頭影片生成

2026 年 5 月 13 日

Repository image for yihao-meng/CausalCine

CausalCine 是一個圍繞多鏡頭敘事影片生成的研究型專案，重點不只是生成單一短片，而是讓多個鏡頭能按故事次序逐步產生。從儲存庫描述來看，它主打即時的自回歸生成方式，目標是令影片在切換場景時仍保留敘事連續性。

對一般使用者來說，可以把它理解為一種「先生成前面內容，再根據已生成結果決定下一鏡」的影片製作方法。這種做法特別適合有劇情推進、場景轉換和角色延續的短片構思，而不只是單次輸出一段互不相關的影片畫面。

它較值得留意的創新，在於把多鏡頭影片當成有因果關係的序列來處理，而不是將每個鏡頭完全分開生成。這意味著角色、氣氛或事件發展，理論上更有機會在前後鏡頭之間保持一致；不過實際效果仍應以專案頁面展示和後續公開內容為準。

核心方向：針對多鏡頭、帶故事性的影片生成
主要特色：採用即時自回歸方式，逐步生成後續鏡頭
實際價值：有助提升鏡頭之間的敘事銜接與連貫感
適合對象：研究者、生成式影片創作者、敘事短片原型開發者

如果你關心的是 AI 如何由「會生成片段」走向「會講故事」，這個專案相當值得留意。它最適合用於概念驗證、研究展示，以及需要快速測試多場景腳本的工作流程；若要投入正式商業製作，仍建議先觀察其公開成果、穩定性和可控程度。

Source: https://yihao-meng.github.io/CausalCine/

Categories: 香港科技大學, 視頻模型

WorldReasonBench：AI 識唔識用影片推演真實世界？

2026 年 5 月 13 日

WorldReasonBench 係一個用嚟評估影片生成模型嘅基準，重點唔係畫面是否逼真，而係模型能否根據起始狀態同事件，合理推演之後個世界會點變。簡單講，即係測試 AI 係「識畫面」定真係「識道理」。

呢個專案收錄 436 個測試案例，覆蓋 4 個推理面向同 22 個細分類，並比較多個影片生成器嘅表現。它亦加入約 6,000 組專家偏好配對，令評分唔只靠單一數字，而係更貼近人點樣判斷一段影片合唔合理。

實際使用上，研究團隊或開發者可以用佢去壓力測試自家模型：先生成影片，再由視覺語言模型回答片中問題，之後交由大型語言模型判斷答案是否正確。專案亦提出 Score PR，同時考慮答對程度同動態推理質素，另外用 Δ RG 觀察模型喺有提示同冇提示下嘅能力落差。

相比一般只看畫質、流暢度或人類偏好嘅評測，呢個專案較有新意嘅地方係將影片生成重新理解為「未來世界狀態預測」。換句話說，它關心物理、社會、邏輯同資訊層面有冇前後一致，呢點對真正需要可靠推演嘅應用特別重要。

不只評畫面：核心係測試世界演化是否合理
評估方法較完整：結合問答、判分同偏好配對
指標較實用：可同時睇準確度與推理穩定性
適合比較模型：方便橫向檢視不同生成器表現

如果你係做 AI 影片研究、模型選型，或者想知道一個生成器係咪只會「整靚片」，呢個基準幾值得留意。對一般用家嚟講，它亦提供一個更貼地嘅角度：一段 AI 影片可信唔可信，未必只靠觀感，而係要睇內容有冇按常理發展。

Source: https://github.com/UniX-AI-Lab/WorldReasonBench

Categories: 開源, 香港科技大學, Agentic, 影像處理, 框架

AutoRubric-as-Reward：用明文評分準則教 AI 揀靚圖

2026 年 5 月 13 日

Repository image for OpenEnvision/AutoRubric-as-Reward

這個專案的核心，不是再訓練一個「黑盒」分數模型，而是先把人對圖片好壞的偏好，整理成可讀的文字評分準則。簡單講，系統會看一小批已標示「邊張較好」的圖片對，抽出判斷依據，再交給視覺語言模型作裁判，輸出成對訓練有用的獎勵訊號。

實際使用上，它較適合已有偏好資料的人員：例如你手上有兩張生成圖，並知道哪張較符合要求，系統就可根據這些例子自動產生 rubric。之後你可以檢查、保存和重用同一份準則文件，令後續訓練或比較更一致，而不是每次靠隱藏分數重新估計。

我認為這個專案最有意思的地方，是它把「評分理由」由隱性變成顯性。它不只會生成準則，還會用已標記例子反覆驗證與修訂；若準則判錯，就再調整，這比單純叫模型直接揀贏家更容易追查問題。論文亦指出，這類做法有助減少位置偏差，並提升少量標註下的效率。

最大特色：獎勵不再是看不到的分數，而是可閱讀的文字準則
流程較可驗證：生成後會對照標註樣本檢查，失敗就修訂
支援範圍實用：可用於文字生圖，也可處理帶來源圖的編輯任務
重用性高：準則可存成檔案，之後重複用於較穩定的訓練流程

最適合的場景，是你想微調圖片生成或圖片編輯模型，但又希望知道模型究竟憑甚麼作出偏好判斷。此專案已接好文字生圖的 FLUX.1-dev LoRA RPO，以及圖片編輯的 Qwen-Image-Edit LoRA RPO；作裁判的視覺語言模型則可用本地 Qwen3-VL（經 vLLM）或 OpenAI 相容端點。

整體來看，AutoRubric-as-Reward較像一套「把審美與要求寫清楚」的工具鏈，而不只是另一個評分器。對研究或進階開發者而言，它的價值在於透明、可檢查、可重現；但對一般用家來說，前提仍是你需要有成對偏好資料，以及願意花時間檢視準則是否真的反映你的標準。

以下係條式嘅詳細拆解：

1. 左手邊：$P^*(y^+ \succ y^- | x)$

$x$：係指輸入嘅內容（Input/Prompt）。
$y^+$ 同 $y^-$：係一對輸出。通常 $y^+$ 代表人類偏好嗰個（好嘅），$y^-$ 代表被捨棄嗰個（差嘅）。
$\succ$：呢個符號代表「優於」或者「偏好」。
意思係「喺已知 $input$ 嘅情況下，人類偏好 $y^+$ 多過 $y^-$ 嘅機率」。

2. 右手邊：分數分配

呢個部分係用嚟將「好感度」量化：

$r^*(x, y)$：呢個係獎勵函數 (Reward Function)。你可以想像成模型幫每一個輸出打嘅「分」。分數越高，代表嗰個輸出越符合人類偏好。
$\exp(\dots)$：即係指數函數 $e^x$。用指數係為咗確保計出嚟嘅數值係正數，而且可以放大分數之間嘅差距。

3. 成條式嘅邏輯

$$P^*(y^+ \succ y^- | x) = \frac{\exp(r^*(x, y^+))}{\exp(r^*(x, y^+)) + \exp(r^*(x, y^-))}$$

呢個結構其實同我哋平時見嘅 Softmax 或者 Sigmoid 函數好似：

分子：係偏好輸出 ($y^+$) 嘅得分。
分母：係兩個輸出（$y^+$ 同 $y^-$）得分嘅總和。
結論：如果 $y^+$ 嘅得分比 $y^-$ 高好多，分子就會佔分母好大比例，機率就會接近 1（代表好肯定人類會揀 $y^+$）。如果兩者得分差唔多，機率就會接近 0.5（代表人類覺得兩個都差唔多）。

總結

呢條式喺訓練 AI（例如 RLHF 或者 DPO）嗰陣好重要，佢幫模型學識點樣根據人類嘅選擇，去調整背後嗰個 $r^*$ 獎勵分數，令模型之後生成嘅嘢越來越接近人類鍾意嘅答案。

Source: https://github.com/OpenEnvision/AutoRubric-as-Reward

Categories: 開源, 香港中文大學, 影像處理, 框架

SCOPE：複雜圖片生成，點樣更少走樣？

2026 年 5 月 12 日

SCOPE 係一個面向複雜圖片生成嘅研究型框架，核心做法唔係單靠一次過輸入長提示詞，而係先將要求拆成可追蹤嘅「語義承諾」，例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作，減少中途遺漏要求嘅情況。

實際使用上，呢個專案比較似一套流程引擎，而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境，並按需要接駁圖片生成、驗證同搜尋等後端服務；如果想跑完整代理式工作流程，亦需要 Codex CLI。

佢最值得留意嘅創新，在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來，而係透過驗證同修補階段，集中處理未解決或違反咗嘅承諾，令後續動作更有方向，對多角色、多約束、知識密集型提示尤其重要。

以結構化規格保存提示要求，而唔係只靠一段文字
將檢索、推理、生成、驗證、修補串成可追蹤流程
適合研究同評測複雜圖片生成效果
內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊，或者正測試高要求圖像任務，SCOPE 會比一般單步生成流程更有分析價值。相反，若你只係想快速出圖，呢個專案門檻會較高，因為它重點係流程控制、可驗證性同評估，而唔係簡化操作介面。

整體來講，SCOPE 展示咗一個幾清晰嘅方向：當提示變得愈來愈複雜，單靠模型「自己理解」未必足夠，最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見，佢亦配合 Gen-Arena 呢類基準做評估，令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

Flow-OPD：讓文生圖多工對齊更穩的關鍵一步

2026 年 5 月 11 日

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架，核心目標不是單純追高某一項分數，而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看，它建立在 SD-3.5-Medium 上，並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上，這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重，而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出，但完整訓練程式仍在進行中，因此比較合理的使用方式，是先檢視論文與模型成果，再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新，在於把原本稀疏的標量獎勵，改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣，學生模型能在自身生成軌跡上接受更細緻的指導；再加上 MAR 正則化，則是用來降低純 RL 對齊常見的美感退化問題，這點對文生圖品質維持特別重要。

從結果看，Flow-OPD 的價值在於它不只比 vanilla GRPO 更強，還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示，該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升，平均表現優於基線，且在 OCR、DeQA 上甚至出現超越個別教師的現象；不過這些結論仍應以論文設定與基準環境為前提理解。

定位明確：專注於 Flow Matching 文生圖模型的多任務後訓練與對齊。
方法新意：以多教師稠密監督取代單一標量獎勵，降低任務間梯度干擾。
實務亮點：MAR 用來守住美感品質，避免只追指標造成生成退化。
適用場景：適合需要同時兼顧文字生成、構圖理解與偏好對齊的通用型文生圖系統。
使用前提：目前較偏研究型專案，若要重現訓練流程，可能仍需等待完整訓練程式公開。

Model download: https://huggingface.co/CostaliyA/Flow-OPD

Source: https://github.com/CostaliyA/Flow-OPD

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

HERMESV2：把3D理解與未來預測合而為一的自駕世界模型

2026 年 5 月 8 日

HERMES++是一個面向自動駕駛的統一世界模型，核心目標不是只做未來場景生成，而是同時處理3D場景理解與未來幾何預測。這點很關鍵，因為多數方法通常偏重其中一端，導致語意理解與物理演化之間仍有落差。

實際使用上，它比較適合拿來當研究型框架：先把多視角輸入整理成BEV表示，再讓模型在共享表示上同時回答當前場景理解任務，並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合，這種設計能減少分散建模的成本。

這個專案最有意思的創新，在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊，再加入LLM-enhanced world queries、Current-to-Future Link與Joint Geometric Optimization，讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下：
– 以單一框架同時支援3D理解與未來點雲／幾何預測
– 使用BEV表示壓縮多視角輸入，保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看，HERMES++最適合用在需要「理解現在、推演未來」的自駕研究，例如未來場景模擬、感知與預測聯合建模，或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現，但若要評估實務部署價值，仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型，專案內容明確提到會結合大型語言模型（LLMs）進行語意知識轉移；不過實際採用的基礎模型細節，從目前提供資訊中不宜過度推定。整體而言，這不是入門型套件，而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

Page 8 of 12

« Previous 1 … 6 7 8 9 10 … 12 Next »