框架 Archives - Page 8 of 13

圖片編輯也要動腦？RE-Edit 幫 AI 學會看邏輯

2026 年 6 月 7 日

現時不少 AI 圖片編輯工具，表面上改得唯肖唯妙，細看卻經常出現「睇落合理、其實犯駁」的情況。來自浙江大學 ReLER Lab 與香港大學的團隊推出 RE-Edit，正是針對這個盲點而設計的基準測試。

RE-Edit 全名為 REasoning-aware image Editing，包含 1,000 個精選樣本，並劃分成五個推理維度：物理（physical）、環境（environmental）、文化（cultural）、因果（causal）和指涉（referential）。每一條題目都刻意設計成「畫面睇落合理，但忽略了潛在邏輯」的情境，用以測試模型能否理解指令背後的隱含限制。

配合基準，團隊亦提出輕量級的後修補方案 EditRefine。做法是先讓多模態大型語言模型（MLLM）診斷初稿失敗之處，再產生帶有思維鏈（chain-of-thought）的重新編輯指令，由原本的擴散模型執行。這個「診斷—重做」流程可以套用在 FLUX.2 Dev、Qwen-Image-Edit 等不同執行器上，毋須重新訓練底層模型。

整套系統以 YAML 設定檔驅動，輸出會保留原圖、初稿、EditRefine 修補稿、chain-of-thought 文本以及重新編輯指令，方便逐個維度比對。對從事 AI 圖像編輯研究、產品測試或內容審核的團隊而言，RE-Edit 提供了一個可量化邏輯錯誤的測試場；對一般讀者來說，它提醒我們「改張相」背後其實牽涉文化、物理因果等多重常識。

重點摘要

1,000 個樣本橫跨五個推理維度，專門捕捉「畫面合理但邏輯犯駁」的失敗案例。
EditRefine 以 model-agnostic 方式插入推理步驟，可搭配 FLUX.2 Dev、Qwen-Image-Edit 等不同模型使用。
評審採用 Qwen3-VL-30B 對 IF、SC 等指標作自動化判分。
設定檔以 YAML 管理，輸出包含初稿、refined 稿、CoT 文本與重編指令，方便追溯。
適合研究 AI 圖像編輯、內容審核及多模態推理的團隊作為統一基準。

GitHub： https://github.com/Yixuan-Ding-ZJU/RE-Edit

Categories: 開源, 香港大學, 影像處理, 框架

AdaPlanBench：A.I. 智能體適應性能力規劃

2026 年 6 月 6 日

現實生活中，AI智能體幫我們安排行程、操作工具時，往往不會一開始就掌握所有限制條件，而是邊做邊發現新約束。AdaPlanBench（Adaptive Planning Benchmark）正是針對這種「邊做邊調整」的能力而設計的評測基準。它把 307 個家居任務當作起點，再用一套可擴展的約束構建流程，為每個任務加上兩類限制，逐步揭示給智能體。

這套基準的獨特之處在於「雙重約束」（dual constraints）與「逐步披露」（progressive disclosure）。一類是世界約束（World Constraints），即環境中不可用或失效的工具與物件；另一類是用戶約束（User Constraints），即用戶對工具屬性、使用方式或行為的偏好禁止。智能體每回合提交計劃，評判機制比對目前已揭示的約束並打分，違規時回饋錯誤，智能體需在多輪互動中持續修訂策略。

測試結果顯示這件事對現有模型而言並不容易。在中等約束量下，表現最強的 GPT-5 僅達到 67.75% 準確率，多數模型低於 45%，開源權重模型普遍在 30% 上下。研究亦發現，有效計劃率（VPR）高並不等於任務成功，約束增加時表現明顯下滑，而用戶約束帶來的挑戰尤其突出。

這個項目適合誰？ 如果你研究 LLM 智能體的規劃能力、互動決策或多輪推理，又或者你在做 Computer-use agents（CUAs）、OSWorld 等環境的應用開發，AdaPlanBench 提供了一個貼近真實、難度可控的測試場景。約束量設有低、中、高三檔（另有 4–6 檔作壓力測試），方便按需要調整難度。

以下是這個基準值得留意的重點：

雙重約束聯合測試：在同一規劃回合中同時考驗世界與用戶兩類限制，比單一約束設定更貼近現實。
增量披露設計：約束隨對話逐步揭示，逼智能體從回饋中推導並追蹤限制，而非依賴一次性完整規格。
可調節難度：每條查詢配備六種環境設定，已公開 Low、Medium、High 三檔，支援不同程度的壓力測試。
多輪回饋循環：智能體在達標、提早停止或回合耗盡前持續迭代，提供更豐富的行為數據。
多維度評估指標：除準確率外，亦記錄有效計劃率、平均回合數與重複違規率，協助診斷失敗模式。

涵蓋的模型包括 GPT-5、Claude 系列，以及多款主流開源權重 LLM，整體結果一致指向同一結論：在約束持續累積的情境下，當前 LLM 智能體仍難以做到穩健的適應性規劃。

GitHub： https://github.com/JiayuJeff/AdaPlanBench

Categories: 開源, 框架

PropMe：測試 LLM「會不會」洩漏訓練資料

2026 年 6 月 5 日

大型語言模型（LLMs）會背誦訓練資料，但現有的記憶性評估大多只關心「能不能逼它說出來」，而忽略了「它在一般使用下到底會不會自己講」。PropMe 正是針對這個落差而設計的傾向感知（propensity-aware）評估框架，它把前綴式的能力攻擊（prefix-style capability attacks）與日常、非對抗的生成結果並列比較，計算出模型在真實情境下洩漏訓練資料的傾向。

整個項目的運作有兩大部分。PropMe 負責定義指標與分析邏輯；SimpleTrace 是一個建基於 infini-gram 的輕量離線追蹤流水線，負責為訓練語料建立索引、把模型生成結果對應回來源文檔，再計算出 verbatim、near-verbatim 與傾向轉換後的記憶性指標。流程包含索引建立、unigram 機率預計算、生成結果追蹤、驗證與傾向指標運算等步驟，資料夾 README 都各有詳細說明。

PropMe 以兩個完全開源的模型——Comma 與 DFM Decoder——在 Common Pile 與 Dynaword 兩份雙語資料集上做實驗。結果顯示能力（capability）與傾向（propensity）之間存在穩定落差：前綴攻擊能引出明顯的記憶痕跡，但日常或資料集特定的提示下，傾向分數普遍偏低。另一個有趣的發現是，從 Comma 持續預訓練而成的 DFM Decoder，對 Common Pile 的記憶能力與傾向都下降，顯示後續訓練若側重不同資料，能降低既有的記憶行為。

這個項目適合關注模型安全、版權與資料外洩的研發人員、模型審計人員及學術研究者。如果你正在評估自家模型的記憶風險，PropMe 提供了把「最壞情況抽取性」與「日常洩漏傾向」分開呈現的具體做法，比單純跑前綴攻擊更能反映真實部署風險。

重點摘要：

問題意識：區分模型「被逼才會背」與「日常會背」兩種不同行為。
核心框架：PropMe 負責傾向指標，SimpleTrace 負責把生成結果追蹤回訓練文檔。
技術基礎：建立在 infini-gram 之上，支援 verbatim、near-verbatim 與傾向轉換指標。
評估模型：Comma 與 DFM Decoder，資料集涵蓋 Common Pile 與 Dynaword 兩種語料。
實用價值：為模型記憶性審計提供比純粹對抗攻擊更貼近真實使用的衡量方式。

GitHub： https://github.com/N-essuno/PropMe

Paper： https://arxiv.org/pdf/2606.06286

Categories: 開源, 模型訓練, 框架

Dream.exe 評測 A.I. 生成的「夢境」能否真的驅動機械人？

2026 年 6 月 5 日

過去兩年，影片生成模型（Video Generation Models）的能力突飛猛進，但大多數評估都停留在「畫面是否好看」這個層面。來自新加坡國立大學 Show Lab、牛津大學及 Tencent 的研究團隊推出 Dream.exe 項目，提出一個更根本的問題：模型在影片中「夢到」的操作動作，機械人真的能照著做嗎？

Dream.exe 的運作流程相當直觀。系統接收一張場景圖片與任務描述後，會先生成一段操作影片，再把當中的動作提升為 3D 機械人軌跡，最後放到物理模擬器中執行。研究團隊採用了 101 項任務，這些任務從 RoboCasa 數據集中精心挑選，並按物理複雜度分為三個等級，評分維度涵蓋視覺品質、軌跡擬真度，以及最關鍵的執行成功率。

評估涵蓋 8 款模型，包括前沿閉源模型如 Veo 2 及 Sora、開源模型如 Wan2.1，以及專為機械人設計的影片生成器。所有模型都採用統一的評測協議，確保比較公平。

這份研究帶來幾個值得留意的地方：

物理知識其實已經藏在生成模型之中。 部分模型在沒有經過任何機械人專項訓練的情況下，仍能達到可量度的執行成功率。
影片好看不代表能執行。 物理合理性評分與任務成功率的相關性極低，意味著以視覺質素判斷模型是否「有用」並不可靠。
長時任務仍是痛點。 需要多階段協調的操作，會迅速暴露現有模型的極限。

對於機器學習研究者、機器人工程師，以及關注世界模型（World Models）與具身智能（Embodied AI）發展的讀者，這份基準測試提供了一個可重複使用的評估框架。研究團隊已表示將開源代碼、基準數據及評測工具，預計會引起不少關注。整體而言，Dream.exe 把影片生成模型從「看的技術」推向「用的技術」，是 2026 年具身智能研究中具代表性的方向之一。

GitHub： https://github.com/showlab/Dream.exe

Categories: 開源, 視覺模型, Robotic, 框架

Video-Spec-Builder：將你的構想轉為影片腳本

2026 年 6 月 5 日

video-spec-builder 不是剪片工具，也不是影像生成器，而是先幫你把想法講清楚的項目。你向 AI 說想做一條片，它會像導演開會一樣一路追問，將原本模糊的方向整理成逐鏡腳本，最後輸出 video-spec.md。

這個項目處理的痛點很明確：很多人不是沒有概念，而是不知道怎樣把感覺變成畫面。像是「要高級感」、「要有衝擊力」這類抽象字眼，它不會照單全收，而是要求你交代鏡頭內容、動作、長度，以及前後段落怎樣接起來。

使用時可以分兩類情境。第一類是從零開始，讓它一步步問出影片目的、受眾、節奏與重點畫面；第二類是你已經有部分腳本或素材，它會協助重組順序，補回中段缺口，甚至提醒字幕、節奏點和音樂配合這些容易忽略的位置。

能把含糊構想拆成具體鏡頭與秒數
適合整理產品片、社交媒體短片、公司介紹片
重點在追問與釐清，不是直接幫你生成成品
可輸出 video-spec.md，方便後續交給 HyperFrames

這個項目的創新不在影像生成，而在「提問式規格整理」。它強迫使用者停止依賴空泛形容詞，改為描述真正會出現在畫面上的內容，對沒有製作經驗的人尤其有幫助。

要留意的是，它的能力邊界寫得很清楚：不能畫插畫、不能生成 live-action footage，也不能產生 photorealistic images。換句話說，這個項目更像前期策劃工具，適合內容團隊、營銷人員、創業者，或者任何手上已有想法和素材、但未整理成可拍腳本的人。

GitHub： https://github.com/feicaiclub/video-spec-builder

Categories: 開源, 工具, 框架

BraveGuard：為電腦操作智能體打造的軌跡級安全防護框架

2026 年 6 月 4 日

隨著 Computer-use agents（CUAs）能直接操作檔案、終端機及瀏覽器，傳統只檢視單一提示或最終回應的內容審核方式已經不足夠。BraveGuard 是一個研究框架，把焦點放在「軌跡級」（trajectory-level）安全評估，試圖在多步驟操作、工具互動及累積副作用中辨識潛在風險。

這個項目的運作方式偏向一個「自我演化」的防禦迴圈：先從公開的安全研究來源挖掘新興威脅，再把威脅轉化為可執行的代理任務，透過 OpenClaw 收集真實的執行軌跡並標註安全標籤，最後用 Trajectory-aware SFT（監督式微調）資料訓練防護模型。模型訓練完成後，邊角案例會回流到下一輪，持續更新防禦能力。

在 AgentHazard 基準測試中，BraveGuard 把防護模型的平均偵測準確率由約 38.79% 提升至約 82.38%，改善幅度相當顯著。框架支援 Qwen3-Guard 及 Llama-Guard 等多種防護模型作為底座，模型權重已於 Hugging Face 開源。

這個項目的重點摘要：

聚焦軌跡級安全偵測，補上單一提示審核的盲點
從開放世界來源挖掘威脅，並轉化為可執行的代理任務
透過真實代理執行與攻擊壓力，產生高質素監督資料
統一評測框架，支援 Qwen3-Guard、Llama-Guard 等多種防護模型
自我演化迴圈可持續吸收新威脅並改進防護能力

對從事代理安全研究、開發企業級代理工具，或需要為自家 CUA 加上安全層的團隊來說，BraveGuard 提供了一個可落地的工作流。不過框架仍屬研究性質，部署前需要評估其與現有系統的整合成本。

GitHub： https://github.com/Yunhao-Feng/BraveGuard

Paper： https://arxiv.org/pdf/2606.01166

Categories: 開源, 阿里巴巴, 框架

OVO-S-Bench：考驗多模態模型的串流空間智能

2026 年 6 月 4 日

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench，是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景，要求模型根據問題時間點之前看到的畫面片段，推理出地點與佈局的變化，而非讀取整段影片。

題目來源相當多元，涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境，共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目，並透過「文字探針」和盲測覆核機制，剔除可憑題幹文字或常識直接答對的題目，確保難度真正來自空間理解。

題目分為四個難度層級，由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning)，到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中，即使是表現最佳的 Gemini-3.1-Pro，分數仍比人類專家低 27 分 (59.2 比 86.6)，全局拓樸層級是最大的樽頸。

更值得留意的是，部分聲稱針對串流或空間任務微調的模型，表現反而不如其底層基座模型；而無根據的思維鏈 (chain-of-thought) 推理，往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要：

涵蓋 1,680 條人工撰寫題目及 348 段影片，總標註工時約 804 小時
設有問題時間點及證據區間，評估時模型只看到查詢前的影片片段
分為四個遞進難度層級，由瞬時感知到全局拓樸建圖
38 款 MLLM 中，Gemini-3.1-Pro 取得 59.2 分，人類專家為 86.6 分
串流及空間微調模型表現可能反遜於原底座模型

GitHub： https://github.com/InternLM/OVO-S-Bench

項目： https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 上海人工智慧實驗室, 框架, 清華大學

BrainCause：用因果測試重新看懂腦部視覺表徵

2026 年 6 月 3 日

BrainCause 是一個針對神經科學與電腦視覺領域開發的自動化框架，用來尋找人腦視覺概念表徵的研究項目。它處理的核心問題是：某個腦區對圖片反應很強，未必代表它真的在表徵該概念，因為反應也可能只是被相關的視覺線索或語意線索帶動。

這個項目會先根據查詢概念建立一組受控刺激資料，包括目標概念圖片、保留其他內容但移除目標概念的 counterfactual edits，以及帶有相關干擾元素的圖片。然後再配合 brain models 與 fMRI 驗證，檢查腦區反應是否會隨概念移除而下降，藉此做 targeted causal testing。

重點在於，它不是只用 activation 來定位腦區，而是加入 causality 驗證。頁面內容指出，若只看 activation，很多定位結果都可能是假陽性；BrainCause 則會回傳經驗證的候選表徵，並提出後續 fMRI 實驗，用來進一步確認或擴展發現。

針對指定概念自動建立 causal dataset
使用 positive images、semantic negatives、counterfactual negatives 作比較
減少只靠 activation 帶來的 false positives
可找回已知功能定位，也能提出新的候選表徵
已在 predicted 與 measured fMRI data 上驗證，涵蓋數十個概念

如果你關心神經科學、電腦視覺，或想了解生成模型如何協助腦科學研究，這個項目很有參考價值。頁面亦提供 Paper、Data 與 Code 入口，方便進一步了解方法與結果。

項目： https://yuvalgol123.github.io/BrainCause/

Categories: 開源, Medical醫學, Dataset 數據集, 框架

Crafter：把科研圖表交給多智能體助手

2026 年 6 月 3 日

做研究的人都遇過這種困擾：論文裡的圖表要花好幾個小時排版、微調細節，市面上的 AI 生圖工具又常常「整體不錯、局部出錯」，改一個元素就把整張圖搞砸。Crafter 正是針對這個痛點而來，它不是把底層生成模型換得更強，而是在外面包了一層多智能體（multi-agent）協作框架，專門處理「結構化、由離散語意元件組成」的科研圖表。

這個項目分為兩個互補系統。Crafter 負責生成，覆蓋學術圖、海報、資訊圖三種類型，並支援文字生圖、遮罩補完、關鍵元素組合、草圖優化等四種輸入條件，不需要更動架構就能切換。CraftEditor 則把生成的點陣圖轉成「座標精準、可後續編輯」的 SVG 格式，研究者終於可以像在 Illustrator 裡那樣挑出單一元件修改。

為了評估效果，團隊同步釋出 CraftBench——一個 279 筆樣本的基準集，每個樣本都附有人工繪製的參考圖，跨越三種圖表類型與四種輸入條件。在 PaperBanana-Bench 與 CraftBench 上，Crafter 都明顯優於單一生成器與既有的 agentic 基線。CraftEditor 轉出的 SVG 在可編輯性上也勝過所有對照組。

生成部分只要設定 OpenAI 相容端點（例如 OpenRouter）即可跑範例；想啟用 CraftEditor 還需要額外架設一個 SAM3 語意分割伺服器。

重點摘要

解決科研圖表「局部錯誤難修、難以再編輯」的問題
採用多智能體協作框架，不需更換底層模型即可跨類型、跨輸入條件生成
內建 Crafter 生成與 CraftEditor 點陣轉 SVG 兩套流程
釋出 CraftBench 評測集，含 279 筆人工標註樣本
適合需要大量產出與修改學術插圖的研究者、團隊與會議海報設計者

GitHub： https://github.com/HaozheZhao/Crafter

Paper： https://arxiv.org/pdf/2605.30611

Categories: 開源, 中國, Dataset 數據集, 框架, 清華大學, 北京大學

TaskMem：教多模態智能體學會選擇性記憶

2026 年 6 月 2 日

多模態智能體在持續觀察環境時，會接收海量且不斷累積的視覺與語言資訊。若把所有內容都存進長期記憶，既不實際也容易雜訊過多。Task-Focused Memorization for Multimodal Agents 這份研究，把焦點放在一個根本問題：智能體到底應該記住什麼？

來自 ByteDance Seed 與復旦大學的作者群提出名為 TaskMem（Task-focused Memorization Policy Learning） 的框架，把記憶生成視為一項可學習的策略。系統採用兩階段訓練：第一階段先學習怎樣記得準確，第二階段則在部署後，根據近期遇到的任務調整一個 adapter，使基礎多模態大型語言模型（MLLM）偏向記錄與任務相關的內容。整個過程以強化學習驅動，獎勵訊號來自真實任務的表現。

為了評估記憶品質，研究團隊將 VideoMME、EgoLife 與 EgoTempo 改造成串流基準，模擬智能體邊觀察邊回答的場景，且回答時只能依賴記憶，不能翻看原始影片。基於 Qwen3-VL-30B-A3B，TaskMem 在三個基準的 VQA 準確率分別提升 6.3%、7.0% 與 5.3%，並在多項指標上超越 Gemini-2.5-Pro、GPT-5.2 等大型模型。

這項工作對從事多模態智能體、機器人記錄系統或長期對話助手開發的研究者特別有參考價值，因為它把「該記什麼」變成可優化的決策，而非寫死規則。對於關注世界模型與持續學習（continual learning）的團隊，TaskMem 亦提供了一個結合任務回饋與記憶策略的可行路徑。

重點摘要：

核心問題：多模態智能體面對資訊洪流，需要學會選擇性記憶。
方法：以強化學習訓練記憶策略，分為基礎保真度與任務相關性兩階段。
評估方式：將三個影片基準改造成串流設定，僅以記憶回答問題。
成效：在 VideoMME、EgoLife、EgoTempo 上 VQA 準確率提升 5.3% 至 7.0%。
適用對象：研究多模態智能體、機器人記憶與持續學習的開發者與學者。

項目： https://taskmem.github.io/

Categories: 開源, 字節跳動, Agentic, OpenClaw, 框架

Page 8 of 13

« Previous 1 … 6 7 8 9 10 … 13 Next »