InferNews - Page 23 of 96

SCOPE：複雜圖片生成，點樣更少走樣？

2026 年 5 月 12 日

SCOPE 係一個面向複雜圖片生成嘅研究型框架，核心做法唔係單靠一次過輸入長提示詞，而係先將要求拆成可追蹤嘅「語義承諾」，例如人物、物件、關係、限制同未確定資訊。之後每個步驟都圍繞同一份結構化規格運作，減少中途遺漏要求嘅情況。

實際使用上，呢個專案比較似一套流程引擎，而唔係即開即用嘅圖片 App。使用者需要準備 Python 3.10+、設定運行環境，並按需要接駁圖片生成、驗證同搜尋等後端服務；如果想跑完整代理式工作流程，亦需要 Codex CLI。

佢最值得留意嘅創新，在於將「生成失敗咗邊一項」具體化。SCOPE 唔係見結果唔理想就整張圖重來，而係透過驗證同修補階段，集中處理未解決或違反咗嘅承諾，令後續動作更有方向，對多角色、多約束、知識密集型提示尤其重要。

以結構化規格保存提示要求，而唔係只靠一段文字
將檢索、推理、生成、驗證、修補串成可追蹤流程
適合研究同評測複雜圖片生成效果
內含配置範例、CLI 工具同 Gen-Arena 評估相關實用程式

如果你係研究人員、工程團隊，或者正測試高要求圖像任務，SCOPE 會比一般單步生成流程更有分析價值。相反，若你只係想快速出圖，呢個專案門檻會較高，因為它重點係流程控制、可驗證性同評估，而唔係簡化操作介面。

整體來講，SCOPE 展示咗一個幾清晰嘅方向：當提示變得愈來愈複雜，單靠模型「自己理解」未必足夠，最好有一套能夠持續記錄、檢查同修正要求嘅機制。以官方資料所見，佢亦配合 Gen-Arena 呢類基準做評估，令成效唔只停留喺示範圖片層面。

Source: https://github.com/nopnor/SCOPE

Categories: 開源, 香港理工大學, Gemini, 影像處理, 提示詞, 框架

PAE：令擴散模型更快收斂的潛在空間設計

2026 年 5 月 11 日

PAE 是一個為潛在擴散模型而設的自編碼器框架，重點不只是把圖片壓縮再還原，而是先把潛在空間整理成更適合擴散模型學習的形態。簡單講，它關心的不是「壓得靚唔靚」，而是「模型之後生圖時會唔會更順、更穩定」。

實際使用上，PAE 可理解為擴散模型前面的 tokenizer 或影像編碼模組：先把圖片轉成 latent，再交畀後續生成模型訓練。這種做法特別適合本身已在做 latent diffusion、但覺得收斂慢、訓練成本高，或者生成效果未夠穩定的研究與開發流程。

這個專案較有意思的地方，是它明確提出三個「對擴散友善」的潛在空間特質：空間結構一致性、局部流形連續性，以及全域語意組織。作者不是假設這些特質會自然出現，而是用三種 prior-alignment regularization 去主動約束，這比單靠重建誤差的傳統思路更進一步。

根據專案提供的結果，PAE 在 ImageNet 256×256 上做到 gFID 1.03，並且在相同 LightningDiT 設定下，收斂速度最高可比 RAE 快 13 倍。對非研究人員而言，這代表同樣資源下有機會更快見到可用成果；不過這些表現仍應視乎資料集、訓練設定與骨幹模型而定。

核心定位：為 latent diffusion 準備更易學的潛在表示
主要創新：把「擴散友善」拆成三個可優化的性質來訓練
實際價值：有機會縮短訓練週期，提升生成質素與少步數採樣表現
適合場景：影像生成研究、需要高效率訓練的生成系統、比較不同 tokenizer 設計
可配骨幹：支援多種編碼器方向，包括 DINOv2、SigLIP2、DINOv3、MAE

如果你關心的是「如何令擴散模型學得更快，而唔係只換更大模型」，PAE 的切入點相當值得參考。它最適合有一定生成模型流程的人採用；對一般用家而言，未必是即裝即用工具，但作為下一代 latent tokenizer 的設計思路，含金量相當高。

Source: https://github.com/ZhengrongYue/PAE

Categories: 開源, 阿里巴巴, 影像模型, 模型, 模型訓練, 視覺模型, 中國

DecodingTrust-Agent：測試 AI 代理可信度的評估框架

2026 年 5 月 11 日

Repository image for AI-secure/DecodingTrust-Agent

DecodingTrust-Agent Arena 是一個用來評估 AI 代理可信度的框架，重點不是幫你做任務，而是觀察代理在真實感較高的工作流程中會否出錯、受誘惑或被惡意引導。它支援不同領域，例如 CRM、workflow automation 等，方便研究人員或產品團隊做一致比較。

實際使用時，使用者通常會提供一個 JSONL 任務檔，再透過命令列啟動評估；也可以針對單一任務資料夾直接測試。系統會按任務類型讀入 benign 或 malicious 場景，並可選擇略過環境設定、MCP 啟動或評分步驟，令測試流程更有彈性。

這個專案的主要創新，在於它不只看 AI 會否完成任務，還把威脅模型與風險類別納入設計，令「可信度」變成可被拆解和量度的指標。對比一般只測準確率的工具，這種做法更貼近 AI 代理在企業環境中可能遇到的安全和操控風險。

最適合的應用場景包括 AI 代理研究、內部安全評估、以及想驗證自動化工作流是否穩定的團隊。若你正在比較不同模型在相同任務下的表現，它也很實用；文件中示例使用了 gpt-4o，但框架本身看來主要是透過 CLI 參數切換模型。

重點摘要：
– 可評估 AI 代理在多個業務場景下的可信度
– 支援 benign 與 malicious 任務設計
– 以 JSONL 任務檔管理測試流程，方便批量評估
– 可按需要跳過部分步驟，適合不同測試環境
– 特別適合研究安全、風險與抗操控能力

Source: https://github.com/AI-secure/DecodingTrust-Agent

Categories: 開源, Agentic

4DThinker：讓影片理解動態空間的4D視覺腦

2026 年 5 月 11 日

4DThinker 是一個面向研究用途的視覺語言模型框架，重點不是單純描述影片內容，而是讓模型從單鏡頭影片理解物件如何移動、互相影響，以及場景隨時間怎樣變化。簡單講，它想解決「模型見到影片，能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程，而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式，以及前處理所需資源；若要重現效果，需準備影片資料、SAM3 checkpoint，並以 Qwen2.5-VL-3B-Instruct 作為基礎模型，部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新，在於它不再只靠文字一步步「講出」推理過程，而是加入所謂 4D latent imagery，讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調，以及 4DRL 強化學習，方向上是希望把動態視覺理解能力直接學進模型本身，而非額外串接複雜幾何模組。

重點摘要：
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊，而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解，或者想提升模型對「之後會怎樣」的判斷，4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析，它未必是最直接的選擇，因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agentic, 庫, 模型, 視覺模型, 中國, 清華大學

coreb：這個 code search 基準有咩特別？

2026 年 5 月 11 日

CoREB 係一個針對程式碼 embedding models 搜尋同 reranking 的評測基準，透過 LoRA 在混合重排序器語料庫上對Qwen3-Reranker-4B進行了微調。CoREB 分三種常見場景：用文字搵 code、用 code 搵相似 code，以及由 code 反推題目描述。一般人可以理解成：唔只測「搵唔搵到」，仲測「排位準唔準」。

實際使用上，你可以直接載入資料集，讀取 queries、qrels 同 code/text 語料，再用標準資訊檢索評分工具做評估；如果係模型開發者，亦可以接上兩階段流程，先做 embedding 檢索，再用 cross-encoder 重排。這個設計方便將現有搜尋模型快速放入同一把尺比較。

它最有價值的地方，係用三級相關性標註，將「真正答案」同「同題但錯嘅干擾項」分開，避免只係二元對錯。再加上問題切分唔重疊、涵蓋五種程式語言，令測試更貼近真實開發情境，而唔係只考記憶。

支援 Text-to-Code、Code-to-Code、Code-to-Text 三類任務
以三級相關性處理 hard negative，對排序更敏感
涵蓋 Python、C++、Java、Go、Ruby
訓練／測試分割避免題目重疊
適合比較檢索模型同 reranker 的整體效果

如果你做的是程式碼搜尋、AI coding assistant，或者想評估向量檢索加重排的完整流程，CoREB 會幾有參考價值。特別係想避免資料污染、又想睇模型喺唔同語言同任務之間的差異，呢個基準算係比較務實的一種選擇。

Source: https://github.com/hq-bench/coreb

Categories: 開源, Embedding, 模型, 編程, 中國

HumanNet：百萬小時影片庫，點樣幫AI更識人類動作

2026 年 5 月 11 日

HumanNet 是一個以「人類活動」為核心的大型影片資料庫，目標是幫研究團隊訓練模型，更準確理解動作、互動同身體運動。它收集接近百萬小時影片，重點不只是片量大，還包括第一身與第三身視角的配對，以及動作相關標註。

實際使用上，這個專案較適合做 AI 研究、資料集分析，或者作為影片理解模型的預訓練基礎，而不是一般用家即裝即用的應用程式。現階段公開資訊顯示，完整語料、整理流程同驗證程式碼仍在陸續釋出，較像研究預覽版本。

它最值得留意的創新，是把資料整理流程本身當成核心設計，包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量，HumanNet 更著重資料是否適合訓練模型理解細緻動作，這點對機械人學習同具身智能尤其重要。

根據項目提供的結果，在受控的 vision-language-action 後訓練設定下，用 HumanNet 內約 1,000 小時第一身影片作初始化，效果可追近甚至略勝較少量真實機械人資料，亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時，人類第一身影片可能是更可擴展的替代方案。

做什麼：提供大規模人類活動影片，用於動作理解、影片學習與具身 AI 預訓練。
點樣用：適合研究人員用來訓練、初始化或評估影片與動作模型。
主要特色：兼有第一身與第三身視角，並附說明文字、動作、手部與身體訊號。
最適合場景：機械人學習、活動辨識、從影片學習操作行為。
要注意：目前看來仍屬研究預覽，部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet

Categories: 開源, 模型, 視覺模型, 中國, 北京大學

Flow-OPD：讓文生圖多工對齊更穩的關鍵一步

2026 年 5 月 11 日

Flow-OPD 是一個針對 Flow Matching 文生圖模型的後訓練框架，核心目標不是單純追高某一項分數，而是把 OCR、組合理解、問答與人類偏好等不同能力整合進同一個學生模型。從公開資訊來看，它建立在 SD-3.5-Medium 上，並以兩階段流程處理「先培養專長、再統一能力」這個多任務對齊難題。

實際使用上，這個專案目前較適合研究者或進階生成模型開發者參考其方法與權重，而不是一般使用者直接拿來當完整訓練工具鏈。README 顯示模型權重已釋出，但完整訓練程式仍在進行中，因此比較合理的使用方式，是先檢視論文與模型成果，再評估是否將其蒸餾思路移植到自己的 Flow Matching 訓練流程。

它最值得注意的創新，在於把原本稀疏的標量獎勵，改成由多個教師模型提供的軌跡級稠密向量場監督。配合 on-policy 的 SDE 採樣，學生模型能在自身生成軌跡上接受更細緻的指導；再加上 MAR 正則化，則是用來降低純 RL 對齊常見的美感退化問題，這點對文生圖品質維持特別重要。

從結果看，Flow-OPD 的價值在於它不只比 vanilla GRPO 更強，還試圖解決多任務訓練常見的「翹翹板效應」。公開數據顯示，該方法在 GenEval、OCR、DeQA 與 PickScore 上都有提升，平均表現優於基線，且在 OCR、DeQA 上甚至出現超越個別教師的現象；不過這些結論仍應以論文設定與基準環境為前提理解。