BraveGuard:為電腦操作智能體打造的軌跡級安全防護框架

BraveGuard logo

隨著 Computer-use agents(CUAs)能直接操作檔案、終端機及瀏覽器,傳統只檢視單一提示或最終回應的內容審核方式已經不足夠。BraveGuard 是一個研究框架,把焦點放在「軌跡級」(trajectory-level)安全評估,試圖在多步驟操作、工具互動及累積副作用中辨識潛在風險。

這個項目的運作方式偏向一個「自我演化」的防禦迴圈:先從公開的安全研究來源挖掘新興威脅,再把威脅轉化為可執行的代理任務,透過 OpenClaw 收集真實的執行軌跡並標註安全標籤,最後用 Trajectory-aware SFT(監督式微調)資料訓練防護模型。模型訓練完成後,邊角案例會回流到下一輪,持續更新防禦能力。

在 AgentHazard 基準測試中,BraveGuard 把防護模型的平均偵測準確率由約 38.79% 提升至約 82.38%,改善幅度相當顯著。框架支援 Qwen3-Guard 及 Llama-Guard 等多種防護模型作為底座,模型權重已於 Hugging Face 開源。

這個項目的重點摘要:

  • 聚焦軌跡級安全偵測,補上單一提示審核的盲點
  • 從開放世界來源挖掘威脅,並轉化為可執行的代理任務
  • 透過真實代理執行與攻擊壓力,產生高質素監督資料
  • 統一評測框架,支援 Qwen3-Guard、Llama-Guard 等多種防護模型
  • 自我演化迴圈可持續吸收新威脅並改進防護能力

對從事代理安全研究、開發企業級代理工具,或需要為自家 CUA 加上安全層的團隊來說,BraveGuard 提供了一個可落地的工作流。不過框架仍屬研究性質,部署前需要評估其與現有系統的整合成本。

GitHub: https://github.com/Yunhao-Feng/BraveGuard

Paper: https://arxiv.org/pdf/2606.01166

Categories: 開源, 阿里巴巴, 框架

OVO-S-Bench:考驗多模態模型的串流空間智能

OVO-S-Bench overview

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench,是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景,要求模型根據問題時間點之前看到的畫面片段,推理出地點與佈局的變化,而非讀取整段影片。

題目來源相當多元,涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境,共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目,並透過「文字探針」和盲測覆核機制,剔除可憑題幹文字或常識直接答對的題目,確保難度真正來自空間理解。

題目分為四個難度層級,由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning),到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中,即使是表現最佳的 Gemini-3.1-Pro,分數仍比人類專家低 27 分 (59.2 比 86.6),全局拓樸層級是最大的樽頸。

更值得留意的是,部分聲稱針對串流或空間任務微調的模型,表現反而不如其底層基座模型;而無根據的思維鏈 (chain-of-thought) 推理,往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要:

  • 涵蓋 1,680 條人工撰寫題目及 348 段影片,總標註工時約 804 小時
  • 設有問題時間點及證據區間,評估時模型只看到查詢前的影片片段
  • 分為四個遞進難度層級,由瞬時感知到全局拓樸建圖
  • 38 款 MLLM 中,Gemini-3.1-Pro 取得 59.2 分,人類專家為 86.6 分
  • 串流及空間微調模型表現可能反遜於原底座模型

GitHub: https://github.com/InternLM/OVO-S-Bench

項目: https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 上海人工智慧實驗室, 框架, 清華大學

Audio-Interaction:讓 AI 像真人一樣即時聽與回應

Audio-Interaction teaser

Audio-Interaction 是一款由南洋理工大學(NTU)、新加坡國立大學(NUS)及香港中文大學(CUHK)共同研發的全開源音訊語言模型,屬於新一代的 Audio Interaction Model(音訊互動模型)。它以一個始終運行的感知—決策—回應循環(perceive-decide-respond loop)為核心,能即時聆聽環境聲音與指令,並自行判斷何時應該開口回應。

傳統的大型音訊語言模型大多只支援離線處理,而現有的串流模型一般只能做單一任務,例如即時語音辨識(streaming ASR)或語音聊天。Audio-Interaction 以單一架構同時覆蓋離線與即時任務,把辨識、翻譯、對話等不同功能統一在同一條串流中。這意味著開發者只需要一套模型,就能應付多種音訊互動場景。

這個項目的核心創新在於其訓練流程 SoundFlow。它能把短音訊片段拼接成長互動資料,並以「塊級決策訓練」(chunk-level decision training)配合歷史回顧與語意感知的靜音處理,讓模型學會「該不該說話」。在推論階段,SoundFlow 採用異步 FIFO 推論(asynchronous FIFO inference),使首幀延遲降低約 4.5 倍,帶來更流暢的即時體驗。

使用時,開發者可以直接從官方頁面取得技術報告與程式碼,並透過微信群組加入社群討論。該項目亦提供了即時試聽 Demo,可與 OpenAI 的 gpt-realtime 及字節跳動的 Seeduplex 進行同條件比較,在重複聲響計數、咳嗽辨識及音樂風格判斷等場景中,Audio-Interaction 能逐輪輸出有意義的回應。

Audio-Interaction 重點摘要:

  • 統一架構:以單一模型同時支援離線與即時音訊任務,涵蓋辨識、翻譯及對話。
  • 感知—決策—回應循環:模型自行判斷回應時機,貼近真實人機互動節奏。
  • SoundFlow 訓練流程:結合資料拼接、塊級決策訓練與靜音感知,提升即時判斷能力。
  • 低延遲推論:異步 FIFO 推論使首幀延遲降低約 4.5 倍。
  • 完全開源:提供技術報告、程式碼及即時試聽 Demo,方便研究與應用。

這個項目特別適合從事語音 AI、對話系統及多模態互動研究的開發者與團隊,能為需要即時音訊理解的產品,例如智能助手、會議記錄、聽障輔助等,提供一個統一且靈活的基礎模型。

項目: https://xzf-thu.github.io/Audio-Interaction/

Categories: 開源, 香港中文大學, 模型, 模型訓練, 語音

SDPG:自我蒸餾及獎勵的訓練演算法

Repository image for lauyikfung/SDPG

在大型語言模型的後訓練階段,強化學習可驗證獎勵(RLVR)已是數學與程式推理的常用配方。然而當獎勵只給到序列層級,模型在訓練初期容易遇到訊號稀疏、優勢值為負時不穩定的問題。SDPG(Self-Distilled Policy Gradient)正是針對這兩個痛點而設計的開源項目。

這個項目將 GRPO 擴展為一種自我蒸餾式的策略梯度方法:在同一個模型中,學生只接收問題,而教師額外接收特權脈絡 c。兩者之間以 full-vocabulary 的 token-level KL 散度即時計算蒸餾訊號,為訓練提供更密集的監督;同時結合標準差歸一化與可切換的 α 參考正則化,以提升訓練穩定性。由於學生與教師共享同一組參數,整體設計也避免了額外部署大型教師模型所帶來的記憶體負擔。

環境需要 8 張 A100、H100 或 H200,以及本地 Ray 叢集;預設模型為 Qwen/Qwen3-4B,亦可指向本地權重。資料格式採用特殊 token 分隔演員題目與教師脈絡,相關腳本皆已附上。對正在研究 RLHF 或想把推理模型蒸餾得更穩定的團隊而言,這是一個門檻明確、可重現的實作藍本。

重點摘要

  • 在 GRPO 之上加入 exact per-token forward KL 自我蒸餾,緩解稀疏獎勵問題
  • 學生與教師共用同一模型,免去大型教師的額外記憶成本
  • 內建四種 α 正則模式(fkl、rkl、ufkl、urkl),方便消融實驗
  • 預設支援 Qwen/Qwen3-4B,可在 verl RLHF 框架上直接運行
  • 硬體門檻為 8 張 A100/H100/H200,搭配本地 Ray 叢集即可啟動

GitHub: https://github.com/lauyikfung/SDPG

Paper: https://arxiv.org/pdf/2606.04036

Categories: 開源, 模型訓練

TRON 視覺推理環境

TRON overview

TRON(Targeted Rule-verifiable Online Environments for Visual Reasoning RL)由喬治亞大學運算學院的研究團隊開源,是一個用於視覺推理強化學習的環境套件。與傳統固定的圖文題庫不同,TRON 的每個環境都由「生成器」與「驗證器」組成:生成器負責抽樣新的視覺狀態並繪製圖片,驗證器則即時比對模型答案與標準答案,因此每次呼叫都會產生全新題目,數量上不受既有資料集限制。

這個項目解決的核心問題是視覺推理強化學習長期缺乏可擴展、可控制、可驗證的訓練信號。過往做法依賴人工標註或合成指令的靜態資料集,題目數量受限,且難以針對特定難度與技能做調整。TRON 把每道題目變成可程式化的環境,訓練時可依據當前課程難度持續產出新實例,並由驗證器提供精確的獎勵。

套件規模方面,TRON 包含520個環境,分為五大能力類別:空間(111個)、數學(131個)、圖表(144個)、規律(104個)和計數(30個)。同一套環境可同時訓練一個全能力的「full TRON model」,或分別訓練五個針對單一能力的 specialist 模型。團隊亦針對生成穩定性、題目多樣性、跨環境重複率與基礎模型在不同難度的通過率進行了完整的子環境分析。

訓練與評估部分,項目採用 TRON-DAPO 強化學習方法。使用 TRON 進行 RL 後訓練,Qwen3-VL-4B、Qwen2.5-VL-7B 與 MiMo-VL-7B 等多個多模態模型,在十個外部視覺推理基準測試上都有穩定提升。對想研究視覺 RL 的研究人員或團隊而言,TRON 提供了一個現成、可擴展且易於自訂難度的訓練場景。

重點摘要

  • 520個可程式化的視覺推理環境,分屬空間、數學、圖表、規律、計數五大類別。
  • 每次訓練都會即時生成新題目,並由驗證器自動核對答案。
  • 支援訓練單一全能力模型或多個單一能力的 specialist 模型。
  • 內建子環境分析,涵蓋生成穩定性、難度梯度與基礎模型表現。
  • 在多個主流多模態模型上,採用 TRON-DAPO 訓練皆能提升外部基準表現。

GitHub: https://github.com/YangTianze009/TRON

Paper: https://arxiv.org/pdf/2606.01599

Categories: 模型訓練, 深度學習, 視覺模型, Dataset 數據集

MERIT:把音樂相似度拆成三條獨立線索

MERIT architecture

現有的音樂相似度模型大多只輸出一個籠統的總分,把旋律、節奏、音色混在一起計算,使用者很難說明「為何這兩首歌像」。MERIT(Multi-Factor Disentangled Music Similarity)由新加坡科技與設計大學的 AMAAI 實驗室推出,以凍結的 MERT backbone 為基礎,再訓練三個各約 11 MB 的輕量投影頭(projection heads),分別負責旋律(S_mel)、節奏(S_rhy)、音色(S_tim)。一段鋼琴翻唱搖滾歌曲的音檔,會在旋律分數偏高、節奏和音色分數偏低,差異即時可見。

這個項目解決的核心問題是音樂檢索的可解釋性。傳統 CLAP、MuLan 或 MERT 這類自監督音訊模型把多種特徵壓縮到同一向量,餘弦相似度難以拆解;MERIT 改用條件式音訊生成與音源分離技術,自動產生 296K 組「單一變因」三元組訓練資料,免去人工標註。三個頭在 held-out 測試中都達到 ≥99.6% 的三元組準確率,並在零樣本真實音訊探測中各自主導對應的感知維度。

重點摘要:

  • 把相似度拆成旋律、節奏、音色三條獨立訊號
  • 採用凍結 MERT-v1-330M 主幹,僅訓練小型投影頭
  • 透過生成式管線產生 296K 因子控制三元組,無需人工標註
  • 每個頭約 11 MB,總計約 33 MB,方便部署
  • 預訓練權重與資料集已發布於 HuggingFace

合適的場景包括音樂串流平台的進階推薦、音樂學研究中的跨版本比較,以及需要解釋「為何推薦這首」的場景。對一般使用者而言,把 S_mel 較高的曲目組成「同一旋律」歌單,就能體驗到差異。

運作流程相當直接:下載三個 .pt 投影頭,以 Wav2Vec2FeatureExtractor 讀入音檔,從 MERT 指定的第 3、4、5、6、23 層抽取特徵,分別送入三個頭即可得到三組 embedding,再以餘弦相似度比較。模型與資料集皆已開源,有興趣的開發者可從 HuggingFace 取得 amaai-lab/merit 與對應資料集。

GitHub: https://github.com/AMAAI-Lab/MERIT

Paper: https://arxiv.org/pdf/2605.27346

Categories: NVIDIA, OpenClaw, Dataset 數據集

Agent Skill 的安全盲點:當三套掃描器互相矛盾時

隨着 AI 代理(AI agents)愈來愈普及,一種稱為「代理技能」(agent skills)的新興軟件層亦隨之興起。技能可以包含指令、工具調用模式、可執行腳本等內容,屬於代理與外部工具之間的執行層,與傳統軟件包有明顯差異。技能即使不含惡意程式碼,仍可能因為授予過大權限、隱藏遠端控制路徑或不安全地儲存憑證而構成風險。

OpenClaw 基金會聯同 NVIDIA 發佈了名為 ClawHub Security Signals 的數據集,收錄了 67,453 個最新版本的公開 OpenClaw 技能。每筆紀錄包含已遮罩的 SKILL.md 內容、清理後的附帶檔案,以及三套掃描器的結果:VirusTotal、靜態啟發式分析,以及 NVIDIA 自行開發的 SkillSpector。研究團隊並非要估算惡意技能的普及率,而是聚焦於「掃描器之間的分歧」這個現象。

研究結果令人意外:三套掃描器極少對同一批技能發出警示。任何兩個掃描器的重疊率最高只有 10.4%,三者同時標記的技能僅佔 0.69%,而被單一掃描器標記的技能卻高達 81.9%。這種分歧並非隨機,而是呈現出明確的結構。SkillSpector 專門針對語意層面的代理風險,在 25,504 個可疑項目中有 75.3% 觸發警示,但在確認惡意的 206 個項目中只標記了 6.8%。相反地,在確認惡意的項目中,VirusTotal 標記了 72.8%,與附帶程式碼的惡意軟件證據吻合。

這項研究強調,AI 代理技能的安全審查需要多層次治理(layered governance),不能依賴單一掃描器作出封鎖或放行的決定。

以下是這項工作的重點摘要:

  • 規模龐大的安全數據集:收錄逾六萬個 OpenClaw 技能的最新版本,涵蓋三套不同掃描器的結果。
  • 聚焦於掃描器分歧:研究發現不同掃描器對同一批技能的判斷差異極大,重疊率偏低。
  • 不同掃描器各有所長:SkillSpector 擅長識別語意層面的代理風險,VirusTotal 則對附帶惡意程式碼的技能更敏感。
  • 支持分層治理理念:研究主張技能安全需要多層次、多工具的綜合判斷,而非單一指標。
  • 公開版本供社群使用:數據集以「銀標準」形式發佈,標籤來自自動判定而非人工標註,研究團隊歡迎社群在此基礎上開發更專門的技能安全分類模型。

這個項目最適合關注 AI 代理安全、軟件供應鏈防護及自動化安全掃描的研究人員與工程師。數據集已在 Hugging Face 上公開,研究團隊鼓勵社群進一步開發針對技能安全分類的模型。

Paper: https://arxiv.org/pdf/2606.01494

Categories: NVIDIA, OpenClaw, Dataset 數據集

DRDD:用兩階段拆解擴散模型,更省數據的圖像轉譯方案

Main figure

圖像到圖像轉譯(Image-to-Image Translation, I2I)涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務,傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models(DRDD)嘗試用一套架構同時處理這些任務,並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段:第一階段負責加入雜訊,達到所謂的「域調和」(domain harmonization)與流形抬升(manifold lifting);第二階段則在固定雜訊下做決定性的殘差擴散,專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題,因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練,DRDD 在配對數據稀缺時仍能保持表現,這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試,涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集,並使用 LPIPS 等指標評估。論文亦提供理論與實證分析,說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師,尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上,以及 Conda。預訓練權重可從 Quark 或其他途徑取得,並依說明放入 ./pretrained_models 目錄。

重點摘要:
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段,保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據,降低對配對樣本的依賴。
– 相容主流擴散模型,可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構,鼓勵社群以現有擴散骨幹(如 DDPM 系列)進一步測試與延伸。

GitHub: https://github.com/HKU-HealthAI/DRDD

Paper: https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

OCC-RAG :1.7B 小模型也能忠實回答問題

occ full

在大型語言模型動輒數百億參數的時代,OCC-RAG(Optimal Cognitive Core for RAG)反其道而行,主打體型輕巧但專注於「忠實、有引用的問答」。這個項目針對的場景很明確:模型拿到一組來源文件後,必須根據內容作答、附上引用編號,若資料不足以回答就老實回應「Not enough information」。

OCC-RAG 雖然還在開發初期,但它的研究方向和概念具有高度價值。

這個項目解決了檢索增強生成(RAG)系統中常見的「幻覺」與「編造來源」問題。OCC-RAG 在 Qwen3 基礎模型上以超過三百萬筆合成多上下文、多跳問答資料進行中期訓練,模型會先輸出結構化推理流程(query analysis → source analysis → reasoning → status → answer),再給出最終答案,每一步都可追溯。

技術報告顯示,OCC-RAG-0.6B 與 OCC-RAG-1.7B 在 HotpotQA、MuSiQue、TAT-QA 等多跳推理基準上,可與體型大 2 至 6 倍的通用模型打成平手甚至更佳;在 ConFiQA 忠實度指標上,於所有受測規模(最高至 32B)中都取得最佳成績。特別的是,它不需要昂貴的「思考模式」推論就能提供類似 chain-of-thought 的透明度,對硬體資源有限的團隊相當友善。

現時 Hugging Face 上已開源 OCC-RAG-0.6B 與 OCC-RAG-1.7B 兩個版本,適合需要嚴格引用規範的企業搜尋、客服問答、研究助理等應用。

重點摘要:

  • 忠實作答:只根據提供的上下文回答,ConFiQA 忠實度在所有受測規模中領先。
  • 校準式拒答:資料不足時自動輸出 Not enough information,避免胡亂推測。
  • 可追溯推理:每個答案附帶結構化推理鏈,並以編號標明引用來源。
  • 輕量高效:0.6B 與 1.7B 兩款小模型,不需思考模式即可達到高透明度。
  • 基於 Qwen3:以 Qwen3-0.6B-Base 與 Qwen3-1.7B-Base 為基礎中期訓練而成。

GitHub: https://github.com/optimal-cognitive-core/OCC-RAG

Paper: https://arxiv.org/pdf/2606.00683

Categories: 開源, 模型

BrainCause:用因果測試重新看懂腦部視覺表徵

Og image

BrainCause 是一個針對神經科學與電腦視覺領域開發的自動化框架,用來尋找人腦視覺概念表徵的研究項目。它處理的核心問題是:某個腦區對圖片反應很強,未必代表它真的在表徵該概念,因為反應也可能只是被相關的視覺線索或語意線索帶動。

這個項目會先根據查詢概念建立一組受控刺激資料,包括目標概念圖片、保留其他內容但移除目標概念的 counterfactual edits,以及帶有相關干擾元素的圖片。然後再配合 brain models 與 fMRI 驗證,檢查腦區反應是否會隨概念移除而下降,藉此做 targeted causal testing。

重點在於,它不是只用 activation 來定位腦區,而是加入 causality 驗證。頁面內容指出,若只看 activation,很多定位結果都可能是假陽性;BrainCause 則會回傳經驗證的候選表徵,並提出後續 fMRI 實驗,用來進一步確認或擴展發現。

  • 針對指定概念自動建立 causal dataset
  • 使用 positive images、semantic negatives、counterfactual negatives 作比較
  • 減少只靠 activation 帶來的 false positives
  • 可找回已知功能定位,也能提出新的候選表徵
  • 已在 predicted 與 measured fMRI data 上驗證,涵蓋數十個概念

如果你關心神經科學、電腦視覺,或想了解生成模型如何協助腦科學研究,這個項目很有參考價值。頁面亦提供 Paper、Data 與 Code 入口,方便進一步了解方法與結果。

項目: https://yuvalgol123.github.io/BrainCause/

Categories: 開源, Medical醫學, 框架, Dataset 數據集

Page 1 of 88
1 2 3 88