Agent Skill 的安全盲點:當三套掃描器互相矛盾時

隨着 AI 代理(AI agents)愈來愈普及,一種稱為「代理技能」(agent skills)的新興軟件層亦隨之興起。技能可以包含指令、工具調用模式、可執行腳本等內容,屬於代理與外部工具之間的執行層,與傳統軟件包有明顯差異。技能即使不含惡意程式碼,仍可能因為授予過大權限、隱藏遠端控制路徑或不安全地儲存憑證而構成風險。

OpenClaw 基金會聯同 NVIDIA 發佈了名為 ClawHub Security Signals 的數據集,收錄了 67,453 個最新版本的公開 OpenClaw 技能。每筆紀錄包含已遮罩的 SKILL.md 內容、清理後的附帶檔案,以及三套掃描器的結果:VirusTotal、靜態啟發式分析,以及 NVIDIA 自行開發的 SkillSpector。研究團隊並非要估算惡意技能的普及率,而是聚焦於「掃描器之間的分歧」這個現象。

研究結果令人意外:三套掃描器極少對同一批技能發出警示。任何兩個掃描器的重疊率最高只有 10.4%,三者同時標記的技能僅佔 0.69%,而被單一掃描器標記的技能卻高達 81.9%。這種分歧並非隨機,而是呈現出明確的結構。SkillSpector 專門針對語意層面的代理風險,在 25,504 個可疑項目中有 75.3% 觸發警示,但在確認惡意的 206 個項目中只標記了 6.8%。相反地,在確認惡意的項目中,VirusTotal 標記了 72.8%,與附帶程式碼的惡意軟件證據吻合。

這項研究強調,AI 代理技能的安全審查需要多層次治理(layered governance),不能依賴單一掃描器作出封鎖或放行的決定。

以下是這項工作的重點摘要:

  • 規模龐大的安全數據集:收錄逾六萬個 OpenClaw 技能的最新版本,涵蓋三套不同掃描器的結果。
  • 聚焦於掃描器分歧:研究發現不同掃描器對同一批技能的判斷差異極大,重疊率偏低。
  • 不同掃描器各有所長:SkillSpector 擅長識別語意層面的代理風險,VirusTotal 則對附帶惡意程式碼的技能更敏感。
  • 支持分層治理理念:研究主張技能安全需要多層次、多工具的綜合判斷,而非單一指標。
  • 公開版本供社群使用:數據集以「銀標準」形式發佈,標籤來自自動判定而非人工標註,研究團隊歡迎社群在此基礎上開發更專門的技能安全分類模型。

這個項目最適合關注 AI 代理安全、軟件供應鏈防護及自動化安全掃描的研究人員與工程師。數據集已在 Hugging Face 上公開,研究團隊鼓勵社群進一步開發針對技能安全分類的模型。

Paper: https://arxiv.org/pdf/2606.01494

Categories: NVIDIA, OpenClaw, Dataset 數據集

DRDD:用兩階段拆解擴散模型,更省數據的圖像轉譯方案

Main figure

圖像到圖像轉譯(Image-to-Image Translation, I2I)涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務,傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models(DRDD)嘗試用一套架構同時處理這些任務,並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段:第一階段負責加入雜訊,達到所謂的「域調和」(domain harmonization)與流形抬升(manifold lifting);第二階段則在固定雜訊下做決定性的殘差擴散,專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題,因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練,DRDD 在配對數據稀缺時仍能保持表現,這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試,涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集,並使用 LPIPS 等指標評估。論文亦提供理論與實證分析,說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師,尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上,以及 Conda。預訓練權重可從 Quark 或其他途徑取得,並依說明放入 ./pretrained_models 目錄。

重點摘要:
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段,保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據,降低對配對樣本的依賴。
– 相容主流擴散模型,可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構,鼓勵社群以現有擴散骨幹(如 DDPM 系列)進一步測試與延伸。

GitHub: https://github.com/HKU-HealthAI/DRDD

Paper: https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

BrainCause:用因果測試重新看懂腦部視覺表徵

Og image

BrainCause 是一個針對神經科學與電腦視覺領域開發的自動化框架,用來尋找人腦視覺概念表徵的研究項目。它處理的核心問題是:某個腦區對圖片反應很強,未必代表它真的在表徵該概念,因為反應也可能只是被相關的視覺線索或語意線索帶動。

這個項目會先根據查詢概念建立一組受控刺激資料,包括目標概念圖片、保留其他內容但移除目標概念的 counterfactual edits,以及帶有相關干擾元素的圖片。然後再配合 brain models 與 fMRI 驗證,檢查腦區反應是否會隨概念移除而下降,藉此做 targeted causal testing。

重點在於,它不是只用 activation 來定位腦區,而是加入 causality 驗證。頁面內容指出,若只看 activation,很多定位結果都可能是假陽性;BrainCause 則會回傳經驗證的候選表徵,並提出後續 fMRI 實驗,用來進一步確認或擴展發現。

  • 針對指定概念自動建立 causal dataset
  • 使用 positive images、semantic negatives、counterfactual negatives 作比較
  • 減少只靠 activation 帶來的 false positives
  • 可找回已知功能定位,也能提出新的候選表徵
  • 已在 predicted 與 measured fMRI data 上驗證,涵蓋數十個概念

如果你關心神經科學、電腦視覺,或想了解生成模型如何協助腦科學研究,這個項目很有參考價值。頁面亦提供 Paper、Data 與 Code 入口,方便進一步了解方法與結果。

項目: https://yuvalgol123.github.io/BrainCause/

Categories: 開源, Medical醫學, 框架, Dataset 數據集

PaddleOCR 把圖片和 PDF 變成 LLM 吃得到的結構化資料

Star-history

處理 PDF 和圖片一直是企業導入 LLM 應用時最頭痛的關卡,傳統 OCR 工具只會吐出零散文字,遇到表格、公式或多語言混排就頻頻出錯。PaddleOCR 由百度 PaddlePaddle 團隊開源,目標是把雜亂的掃描檔和圖片整理成 LLM 友善的 JSON 或 Markdown,後續無論餵給 RAG 檢索還是 Agent 流程都更順暢。

這個項目以兩個核心模型撐起整套能力。PaddleOCR-VL-1.6 是一款 0.9B 參數的視覺語言模型,專注文件解析,在 OmniDocBench v1.6 取得 96.33% 分數,對古文、罕見字、印章及圖表也有顯著強化。PP-StructureV3 則補足了另一條路線,提供表格儲存格、文字等更細粒度的座標資訊,方便需要版面重建的場景。最新版 PP-OCRv5 支援 100 多種語言,準確度較前代提升約 13%,同時保持輕量部署特性,可在 CPU、GPU、NPU 等不同硬體運行。

目前的 LLM-RAG 開源生態中,Dify、RAGFlow、Cherry Studio 等知名項目都採用 PaddleOCR 作為文件解析層,社群也累積超過 6,000 個依賴它的下游項目。對需要批次處理合約、研究論文、政府公文或多語文件的人來說,這套工具兼具商用級準確度與邊緣裝置可用的效率,動手前只要準備好 Python 3.8 至 3.12 環境即可開始試跑。

重點摘要

  • PaddleOCR-VL-1.6 (0.9B) 在 OmniDocBench v1.6 達到 96.33%,輕量卻具競爭力。
  • PP-StructureV3 補足細粒度座標,適合需要表格與版面重建的應用。
  • PP-OCRv5 支援逾 100 種語言,準確度較前代提升約 13%,硬體需求低。
  • 已被 Dify、RAGFlow、Cherry Studio 等 LLM 應用項目整合採用。
  • GitHub 逾 7 萬顆星、6,000 多個依賴項目,社群驗證度高。

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Paper: https://arxiv.org/pdf/2606.03264

Categories: 開源, 模型, 視覺模型, 中國, Dataset 數據集, 百度

Crafter:把科研圖表交給多智能體助手

crafter architecture

做研究的人都遇過這種困擾:論文裡的圖表要花好幾個小時排版、微調細節,市面上的 AI 生圖工具又常常「整體不錯、局部出錯」,改一個元素就把整張圖搞砸。Crafter 正是針對這個痛點而來,它不是把底層生成模型換得更強,而是在外面包了一層多智能體(multi-agent)協作框架,專門處理「結構化、由離散語意元件組成」的科研圖表。

這個項目分為兩個互補系統。Crafter 負責生成,覆蓋學術圖、海報、資訊圖三種類型,並支援文字生圖、遮罩補完、關鍵元素組合、草圖優化等四種輸入條件,不需要更動架構就能切換。CraftEditor 則把生成的點陣圖轉成「座標精準、可後續編輯」的 SVG 格式,研究者終於可以像在 Illustrator 裡那樣挑出單一元件修改。

為了評估效果,團隊同步釋出 CraftBench——一個 279 筆樣本的基準集,每個樣本都附有人工繪製的參考圖,跨越三種圖表類型與四種輸入條件。在 PaperBanana-Bench 與 CraftBench 上,Crafter 都明顯優於單一生成器與既有的 agentic 基線。CraftEditor 轉出的 SVG 在可編輯性上也勝過所有對照組。

生成部分只要設定 OpenAI 相容端點(例如 OpenRouter)即可跑範例;想啟用 CraftEditor 還需要額外架設一個 SAM3 語意分割伺服器。

重點摘要

  • 解決科研圖表「局部錯誤難修、難以再編輯」的問題
  • 採用多智能體協作框架,不需更換底層模型即可跨類型、跨輸入條件生成
  • 內建 Crafter 生成與 CraftEditor 點陣轉 SVG 兩套流程
  • 釋出 CraftBench 評測集,含 279 筆人工標註樣本
  • 適合需要大量產出與修改學術插圖的研究者、團隊與會議海報設計者

GitHub: https://github.com/HaozheZhao/Crafter

Paper: https://arxiv.org/pdf/2605.30611

Categories: 開源, 中國, 北京大學, 清華大學, 框架, Dataset 數據集

從腦部訊號到影像問答:Brain-IT-VQA 框架解碼大腦視覺理解

Weizmann Institute of Science

Brain-IT-VQA 是一套從 fMRI(功能性磁共振造影)腦部訊號出發,自動回答「圖片中看到什麼」這類問題的框架。研究團隊建基於 Brain Interaction Transformer(Brain-IT),把腦部活動轉換成語言條件表徵,再交由預訓練的視覺語言模型生成答案,全程毋須先把腦部訊號重建成影像。

這項工作解決了一個長期難題:過去從 fMRI 解讀視覺內容的研究,大多只能產生粗略描述,而且準確度有限;更少有模型被用來分析大腦內部如何處理視覺資訊。Brain-IT-VQA 在多項基準上明顯超越以往的 fMRI 影像描述與 VQA(Visual Question Answering,視覺問答)方法,同時提供拆解視覺理解層次的工具。

團隊同步發佈 NSD-VQA 數據集,以 Natural Scenes Dataset(NSD)為基礎,平均每張影像提供約 20 題,涵蓋 20 個受控問題類別。這些類別覆蓋物件辨識、空間關係、語意判斷等不同層次,方便研究者細緻評估模型在各種視覺與語意任務上的表現。

透過「解碼貢獻分析」,框架可揭示不同腦區對各類問題的貢獻分布,協助神經科學家理解大腦處理視覺資訊的空間分佈特徵。頁面亦設有互動示範,讓訪客在從未參與訓練的 NSD 測試影像上,瀏覽模型生成的描述與問答結果。

重點摘要

  • 直接從 fMRI 解碼語言:把腦部活動轉成語言條件表徵,由預訓練視覺語言模型生成描述與答案,毋須影像重建步驟。
  • 公開 NSD-VQA 數據集:每張影像平均 20 題、20 個受控類別,提供更細緻的 VQA 評估基準。
  • 顯著超越先前方法:在 fMRI 影像描述與視覺問答任務上,明顯優於過往同類模型。
  • 支援腦區貢獻分析:可拆解不同腦區在各類視覺問題中的參與程度,輔助神經科學研究。
  • 附設互動示範:容許瀏覽者在 NSD 測試影像上查看模型的預測輸出。

這個項目最適合從事腦部解碼、視覺語言模型、神經科學與認知計算的研究人員與研究生。對希望了解 AI 與人類視覺如何結合的工程師而言,NSD-VQA 與開源代碼亦提供了一個具挑戰性的新基準。

研究單位
Weizmann Institute of Science (魏茨曼科學研究所)在以色列的雷霍沃特(Rehovot),大約在特拉維夫以南。

魏茨曼科學研究所一般被視為世界頂尖的基礎研究機構之一;在你這次查到的資料裡,它在萊頓排名中被列到全球前十,2021 年為第 8 名。

它的重點研究領域主要集中在 生物學/生物化學、化學、物理、數學與電腦科學,也有跨學科方向。

項目: https://mcosarinsky.github.io/brain-it-vqa/

Categories: Medical醫學, Dataset 數據集

GGT-100K:用十萬對真實影像 拓寬圖像修復的泛化邊界

GGT-100K logo

過去訓練圖像修復模型時,開發者往往受限於合成數據與真實場景之間的差距;模型在實驗室數據集表現亮眼,遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生,由香港理工大學 OPPO 研究院共同推出,主打從 MFM(Multimodal Foundation Models)直接生成十萬對 LQ-HQ 配對資料,覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth(GT)」,再利用 MFM 推演對應的低品質版本,省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint,研究者只需在自有的修復模型上加掛 LoRA 或重新微調,就能測試跨域泛化效果;對工程團隊而言,等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

  • 提供十萬對從 MFM 生成的 LQ-HQ 影像配對,涵蓋多元真實退化情境。
  • 內建 baseline 訓練與推論程式碼,支援主流修復模型微調。
  • 透過 Generative GT 策略,免除傳統人工蒐集配對的高昂成本。
  • 數據集可從 Hugging Face 或百度雲下載,附完整 Construction Process 說明。
  • 實驗結果顯示,模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現,作者在多個 SOTA(State-of-the-Art)MFM 上進行了修復評估,結果顯示加入 GGT-100K 訓練後,模型對未見過的真實退化樣本有更佳的適應力;具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發,或是想評估自家模型在真實世界表現的團隊,這份開源資源值得花時間一試。

GitHub: https://github.com/PolyU-VCLab/GGT-100K

項目: https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集

Spreadsheet-RL:讓 AI 真正學識用 Excel

overview

Spreadsheet-RL 是一個針對試算表工作的強化學習項目,重點不是單次輸出答案,而是讓大型語言模型在 Microsoft Excel 環境中分步操作,最後再用整份活頁簿的結果判斷做得對不對。對比一般只靠提示詞的方法,這種設計更貼近日常表格整理、計算和修正流程。

它解決的核心問題,是模型面對多步驟試算表任務時,往往容易中途出錯,或者只懂講做法但未必真的完成。這個項目把資料建立、互動環境、獎勵機制串連起來,令訓練目標不只是「說得像」,而是「做得啱」。當系統會重新計算並比對最終活頁簿,評分方式就比純文字答案更實在。

上手方向也算清楚:研究者可用它提供的訓練與評估堆疊,配合 Excel 獎勵服務、沙盒程式執行,以及多輪互動環境,去訓練或測試自己的試算表代理。內容明顯較適合具備機器學習、叢集運算或代理系統背景的人,普通用家未必會直接部署,但很適合拿來理解「AI 幫你做 Excel」背後需要哪些能力。

幾個值得留意的位包括:
– 以公開試算表論壇題目自動整理訓練資料,論文提到有 5,928 個經篩選任務
– 支援多輪 Excel 互動,而不只是一次生成答案
– 內建試算表原生工具、沙盒執行程式碼,以及獨立工作空間
– 以最終活頁簿正確性作為獎勵,較貼近真實工作成果
– 已公開 Spreadsheet-RL-4B,基於 Qwen/Qwen3-4B-Thinking-2507 訓練

表現方面,論文提到 Qwen/Qwen3-4B-Thinking-2507 經完整流程後,SpreadsheetBench 的 Pass@1 由 12.0% 提升到 23.4%,另一個 Domain-Spreadsheet 評估則由 8.4% 升至 17.2%。幅度相當明顯,但仍屬研究型結果,使用時也要留意其環境依賴較重,包括 Excel 服務、沙盒與訓練基建。

整體來看,Spreadsheet-RL 最有價值的地方,是它把「試算表代理」由提示工程推前一步,變成可訓練、可評估、可重現的完整項目。相關模型方面,文中可見 Qwen3-4B-Thinking-2507、Qwen3-4B Instruct、Qwen3-8B、Qwen3-14B、Qwen3-32B,以及 GPT-4o、OpenAI o3 等比較基線;對想研究 AI 自動處理表格工作的人,這是一個很值得留意的參考。

GitHub: https://github.com/Spreadsheet-RL/Spreadsheet-RL

Paper: https://arxiv.org/pdf/2605.22642

Categories: 開源, Meta, Dataset 數據集

cusp-scientific-foresight:AI 能否預測科學突破?

Repository image for SeanWu25/cusp-scientific-foresight

CUSP是一個用來評估AI是否能「預測科學未來」的基準資料集。它的做法幾有意思:先把模型鎖定在某個歷史時間點之前可見的知識,再要求它判斷之後會不會出現某項科研成果、何時出現,或者從多個候選答案中選出較合理的一個。

項目提供了資料集和 notebook 入手,先看每筆紀錄包含甚麼欄位,再逐類型比較模型表現。它支援多種題型,包括二元判斷、反向擾動題、四選一、開放式回答,以及發表時間預測,對研究評估流程的人來說相當完整。

這個項目想解決的,不是一般問答準不準,而是AI有沒有能力在資訊受限下推測科研進程。這點比常見基準更接近真實研究判斷,因為重點不只是背到答案,而是能否根據過往脈絡作出前瞻推論。

較突出的地方,是它加入「歷史知識截點」和跨學科事件設計,涵蓋4,760個科學事件,並且把時間預測都納入評分。論文內容亦指出,不少前沿模型雖然能辨認看似合理的研究方向,但對於成果是否真的會發生、會在幾時出現,表現並不穩定;AI相關進展似乎比生物、化學、物理更易預測。

  • 重點不是答題,而是前瞻判斷能力
  • 題型涵蓋是非題、選擇題、開放回答與時間預測
  • 涉及多個科學領域,能看出不同領域的差異
  • 研究結果顯示模型存在過度自信與回答偏差
  • 相關模型層面,項目主要用來評估現代大型語言模型,而非只限單一模型

整體來看,CUSP較適合做模型評估、AI研究分析,或關心「AI能否幫手判斷科研走向」的人閱讀。它未必是一般用家即開即用的應用型工具,但作為一個評測項目,它把問題定義得清楚,也提醒大家:模型懂得整理已知資訊,不代表已經懂得可靠地預測科學突破。

GitHub: https://github.com/SeanWu25/cusp-scientific-foresight

Paper: https://arxiv.org/pdf/2605.22681

Categories: 開源, Dataset 數據集

PhysX-Omni:讓 3D 生成更貼近物理世界

teaser

PhysX-Omni 由南洋理工大學及 中國 ACE Robotics 開發,是個面向模擬用途的 3D 生成項目,重點不只是做出外觀,而是連同剛體、可變形物件與可動關節物件一併考慮。簡單說,它想解決的問題是:很多 3D 生成結果看起來像樣,但未必能直接放進物理模擬或機械人流程裡使用。

這個項目的亮點,在於把幾何形狀、絕對尺寸、材質、可供互動的功能,以及運動結構放到同一套框架內處理。它配合 PhysXVerse 資料集和 PhysX-Bench 評估方法,目標是同時檢查生成能力與理解能力,這點比只看外觀相似度更進一步。

整體流程偏向研究型:先準備 Python/conda 環境,再安裝相依套件,之後下載 PhysXNet、PhysX-Mobility 與 PhysXVerse 等資料,完成前處理和條件圖像渲染,最後再設定訓練路徑。這代表它較適合已有 AI 或 3D 處理基礎的人,而不是即開即用的輕量工具。

PhysX-Omni: Unified Sim-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects
  • 核心價值:生成可放進模擬流程的 3D 資產,而非只有表面外觀
  • 覆蓋範圍:支援剛體、可變形物件、關節物件三類內容
  • 相關資源:包括 PhysXVerse 資料集、PhysX-Bench 評估,以及 README 提到的 Qwen2.5 相依套件
  • 適合場景:機械人訓練、物理模擬、具條件控制的 3D 場景生成

性能方面,公開資料指出它會用一般指標加上自家的基準一同評估,並強調在生成與理解兩邊都有不錯表現。不過從現有資訊來看,較完整的數字仍應以論文與官方頁面為準;對一般讀者而言,最值得留意的是它把「看得像」推進到「更可能用得著」,這正是這個項目最有意思的地方。

GitHub: https://github.com/physx-omni/PhysX-Omni

Paper: https://arxiv.org/pdf/2605.21572

Categories: 開源, 影像模型, 影像處理, 模型, 中國, Dataset 數據集

Page 5 of 6
1 3 4 5 6