PropMe:測試 LLM「會不會」洩漏訓練資料

propme framework

大型語言模型(LLMs)會背誦訓練資料,但現有的記憶性評估大多只關心「能不能逼它說出來」,而忽略了「它在一般使用下到底會不會自己講」。PropMe 正是針對這個落差而設計的傾向感知(propensity-aware)評估框架,它把前綴式的能力攻擊(prefix-style capability attacks)與日常、非對抗的生成結果並列比較,計算出模型在真實情境下洩漏訓練資料的傾向。

整個項目的運作有兩大部分。PropMe 負責定義指標與分析邏輯;SimpleTrace 是一個建基於 infini-gram 的輕量離線追蹤流水線,負責為訓練語料建立索引、把模型生成結果對應回來源文檔,再計算出 verbatim、near-verbatim 與傾向轉換後的記憶性指標。流程包含索引建立、unigram 機率預計算、生成結果追蹤、驗證與傾向指標運算等步驟,資料夾 README 都各有詳細說明。

PropMe 以兩個完全開源的模型——Comma 與 DFM Decoder——在 Common Pile 與 Dynaword 兩份雙語資料集上做實驗。結果顯示能力(capability)與傾向(propensity)之間存在穩定落差:前綴攻擊能引出明顯的記憶痕跡,但日常或資料集特定的提示下,傾向分數普遍偏低。另一個有趣的發現是,從 Comma 持續預訓練而成的 DFM Decoder,對 Common Pile 的記憶能力與傾向都下降,顯示後續訓練若側重不同資料,能降低既有的記憶行為。

這個項目適合關注模型安全、版權與資料外洩的研發人員、模型審計人員及學術研究者。如果你正在評估自家模型的記憶風險,PropMe 提供了把「最壞情況抽取性」與「日常洩漏傾向」分開呈現的具體做法,比單純跑前綴攻擊更能反映真實部署風險。

重點摘要:

  • 問題意識:區分模型「被逼才會背」與「日常會背」兩種不同行為。
  • 核心框架:PropMe 負責傾向指標,SimpleTrace 負責把生成結果追蹤回訓練文檔。
  • 技術基礎:建立在 infini-gram 之上,支援 verbatim、near-verbatim 與傾向轉換指標。
  • 評估模型:Comma 與 DFM Decoder,資料集涵蓋 Common Pile 與 Dynaword 兩種語料。
  • 實用價值:為模型記憶性審計提供比純粹對抗攻擊更貼近真實使用的衡量方式。

GitHub: https://github.com/N-essuno/PropMe

Paper: https://arxiv.org/pdf/2606.06286

Categories: 開源, 模型訓練, 框架

Dream.exe 評測 A.I. 生成的「夢境」能否真的驅動機械人?

Overview of the Dream.exe task suite

過去兩年,影片生成模型(Video Generation Models)的能力突飛猛進,但大多數評估都停留在「畫面是否好看」這個層面。來自新加坡國立大學 Show Lab、牛津大學及 Tencent 的研究團隊推出 Dream.exe 項目,提出一個更根本的問題:模型在影片中「夢到」的操作動作,機械人真的能照著做嗎?

Dream.exe 的運作流程相當直觀。系統接收一張場景圖片與任務描述後,會先生成一段操作影片,再把當中的動作提升為 3D 機械人軌跡,最後放到物理模擬器中執行。研究團隊採用了 101 項任務,這些任務從 RoboCasa 數據集中精心挑選,並按物理複雜度分為三個等級,評分維度涵蓋視覺品質、軌跡擬真度,以及最關鍵的執行成功率。

評估涵蓋 8 款模型,包括前沿閉源模型如 Veo 2 及 Sora、開源模型如 Wan2.1,以及專為機械人設計的影片生成器。所有模型都採用統一的評測協議,確保比較公平。

這份研究帶來幾個值得留意的地方:

  • 物理知識其實已經藏在生成模型之中。 部分模型在沒有經過任何機械人專項訓練的情況下,仍能達到可量度的執行成功率。
  • 影片好看不代表能執行。 物理合理性評分與任務成功率的相關性極低,意味著以視覺質素判斷模型是否「有用」並不可靠。
  • 長時任務仍是痛點。 需要多階段協調的操作,會迅速暴露現有模型的極限。

對於機器學習研究者、機器人工程師,以及關注世界模型(World Models)與具身智能(Embodied AI)發展的讀者,這份基準測試提供了一個可重複使用的評估框架。研究團隊已表示將開源代碼、基準數據及評測工具,預計會引起不少關注。整體而言,Dream.exe 把影片生成模型從「看的技術」推向「用的技術」,是 2026 年具身智能研究中具代表性的方向之一。

GitHub: https://github.com/showlab/Dream.exe

Categories: 開源, 視覺模型, Robotic, 框架

WLA:整合世界、語言與動作模型

Repository image for SJTU-DENG-Lab/WLA

WLA(World-Language-Action Model)由上海交通大學 DENG 實驗室推出,定位為一個統一世界建模、語言推理與動作合成的官方實現項目。簡單來說,研究團隊嘗試讓同一個 AI 系統同時處理「理解世界」、「理解語言」以及「產生動作」三種任務,而不再需要三個獨立模型分工合作。這對於機器人、遊戲 AI 以及需要即時決策的互動系統來說,是一條值得關注的技術路徑。

目前這個項目仍處於預告階段,程式碼與模型權重計劃在 6 月 18 日之前開源釋出,官方提供了展示影片展示其運作效果。在動手實作方面,潛在使用者短期內只能先關注儲存庫的更新,等待權重釋出後再評估本地部署或 API 整合的可能性,項目本身亦未透露具體支援的模型清單。

這個項目的創新方向,是把感知層、認知層與執行層的概念放在同一個訓練框架下學習,減少傳統流水線中模組之間的介面損耗。對於機器人研究團隊、強化學習開發者,以及探索通用代理人(General-purpose Agent)架構的工程師而言,WLA 提供了一個可參考的新設計樣板。效能數據與基準測試結果,則有待官方釋出後再做比較。

以下整理幾個重點供參考:

  • 統一框架:把世界模型、語言模型與動作模型合而為一,降低多模態系統的整合成本。
  • 學術背景:來自上海交大 DENG 實驗室,屬於官方實作項目。
  • 適用場景:機器人控制、互動式代理人、強化學習等需要即時決策的應用。
  • 目前狀態:程式碼與權重即將於 6 月中前公開,尚未有完整基準評估。
  • 使用建議:在權重釋出前,讀者可先研究展示影片與後續論文,掌握其訓練思路再決定是否整合。

若你正在尋找一個把感知與行動串起來的新框架,WLA 值得加入觀察清單。

GitHub: https://github.com/SJTU-DENG-Lab/WLA

Categories: 開源, 視覺模型, Robotic, 中國

Video-Spec-Builder:將你的構想轉為影片腳本

Spec Mono preview

video-spec-builder 不是剪片工具,也不是影像生成器,而是先幫你把想法講清楚的項目。你向 AI 說想做一條片,它會像導演開會一樣一路追問,將原本模糊的方向整理成逐鏡腳本,最後輸出 video-spec.md

這個項目處理的痛點很明確:很多人不是沒有概念,而是不知道怎樣把感覺變成畫面。像是「要高級感」、「要有衝擊力」這類抽象字眼,它不會照單全收,而是要求你交代鏡頭內容、動作、長度,以及前後段落怎樣接起來。

使用時可以分兩類情境。第一類是從零開始,讓它一步步問出影片目的、受眾、節奏與重點畫面;第二類是你已經有部分腳本或素材,它會協助重組順序,補回中段缺口,甚至提醒字幕、節奏點和音樂配合這些容易忽略的位置。

  • 能把含糊構想拆成具體鏡頭與秒數
  • 適合整理產品片、社交媒體短片、公司介紹片
  • 重點在追問與釐清,不是直接幫你生成成品
  • 可輸出 video-spec.md,方便後續交給 HyperFrames

這個項目的創新不在影像生成,而在「提問式規格整理」。它強迫使用者停止依賴空泛形容詞,改為描述真正會出現在畫面上的內容,對沒有製作經驗的人尤其有幫助。

要留意的是,它的能力邊界寫得很清楚:不能畫插畫、不能生成 live-action footage,也不能產生 photorealistic images。換句話說,這個項目更像前期策劃工具,適合內容團隊、營銷人員、創業者,或者任何手上已有想法和素材、但未整理成可拍腳本的人。

GitHub: https://github.com/feicaiclub/video-spec-builder

Categories: 開源, 工具, 框架

BraveGuard:為電腦操作智能體打造的軌跡級安全防護框架

BraveGuard logo

隨著 Computer-use agents(CUAs)能直接操作檔案、終端機及瀏覽器,傳統只檢視單一提示或最終回應的內容審核方式已經不足夠。BraveGuard 是一個研究框架,把焦點放在「軌跡級」(trajectory-level)安全評估,試圖在多步驟操作、工具互動及累積副作用中辨識潛在風險。

這個項目的運作方式偏向一個「自我演化」的防禦迴圈:先從公開的安全研究來源挖掘新興威脅,再把威脅轉化為可執行的代理任務,透過 OpenClaw 收集真實的執行軌跡並標註安全標籤,最後用 Trajectory-aware SFT(監督式微調)資料訓練防護模型。模型訓練完成後,邊角案例會回流到下一輪,持續更新防禦能力。

在 AgentHazard 基準測試中,BraveGuard 把防護模型的平均偵測準確率由約 38.79% 提升至約 82.38%,改善幅度相當顯著。框架支援 Qwen3-Guard 及 Llama-Guard 等多種防護模型作為底座,模型權重已於 Hugging Face 開源。

這個項目的重點摘要:

  • 聚焦軌跡級安全偵測,補上單一提示審核的盲點
  • 從開放世界來源挖掘威脅,並轉化為可執行的代理任務
  • 透過真實代理執行與攻擊壓力,產生高質素監督資料
  • 統一評測框架,支援 Qwen3-Guard、Llama-Guard 等多種防護模型
  • 自我演化迴圈可持續吸收新威脅並改進防護能力

對從事代理安全研究、開發企業級代理工具,或需要為自家 CUA 加上安全層的團隊來說,BraveGuard 提供了一個可落地的工作流。不過框架仍屬研究性質,部署前需要評估其與現有系統的整合成本。

GitHub: https://github.com/Yunhao-Feng/BraveGuard

Paper: https://arxiv.org/pdf/2606.01166

Categories: 開源, 阿里巴巴, 框架

OVO-S-Bench:考驗多模態模型的串流空間智能

OVO-S-Bench overview

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench,是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景,要求模型根據問題時間點之前看到的畫面片段,推理出地點與佈局的變化,而非讀取整段影片。

題目來源相當多元,涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境,共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目,並透過「文字探針」和盲測覆核機制,剔除可憑題幹文字或常識直接答對的題目,確保難度真正來自空間理解。

題目分為四個難度層級,由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning),到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中,即使是表現最佳的 Gemini-3.1-Pro,分數仍比人類專家低 27 分 (59.2 比 86.6),全局拓樸層級是最大的樽頸。

更值得留意的是,部分聲稱針對串流或空間任務微調的模型,表現反而不如其底層基座模型;而無根據的思維鏈 (chain-of-thought) 推理,往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要:

  • 涵蓋 1,680 條人工撰寫題目及 348 段影片,總標註工時約 804 小時
  • 設有問題時間點及證據區間,評估時模型只看到查詢前的影片片段
  • 分為四個遞進難度層級,由瞬時感知到全局拓樸建圖
  • 38 款 MLLM 中,Gemini-3.1-Pro 取得 59.2 分,人類專家為 86.6 分
  • 串流及空間微調模型表現可能反遜於原底座模型

GitHub: https://github.com/InternLM/OVO-S-Bench

項目: https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 上海人工智慧實驗室, 框架, 清華大學

Audio-Interaction:讓 AI 像真人一樣即時聽與回應

Audio-Interaction teaser

Audio-Interaction 是一款由南洋理工大學(NTU)、新加坡國立大學(NUS)及香港中文大學(CUHK)共同研發的全開源音訊語言模型,屬於新一代的 Audio Interaction Model(音訊互動模型)。它以一個始終運行的感知—決策—回應循環(perceive-decide-respond loop)為核心,能即時聆聽環境聲音與指令,並自行判斷何時應該開口回應。

傳統的大型音訊語言模型大多只支援離線處理,而現有的串流模型一般只能做單一任務,例如即時語音辨識(streaming ASR)或語音聊天。Audio-Interaction 以單一架構同時覆蓋離線與即時任務,把辨識、翻譯、對話等不同功能統一在同一條串流中。這意味著開發者只需要一套模型,就能應付多種音訊互動場景。

這個項目的核心創新在於其訓練流程 SoundFlow。它能把短音訊片段拼接成長互動資料,並以「塊級決策訓練」(chunk-level decision training)配合歷史回顧與語意感知的靜音處理,讓模型學會「該不該說話」。在推論階段,SoundFlow 採用異步 FIFO 推論(asynchronous FIFO inference),使首幀延遲降低約 4.5 倍,帶來更流暢的即時體驗。

使用時,開發者可以直接從官方頁面取得技術報告與程式碼,並透過微信群組加入社群討論。該項目亦提供了即時試聽 Demo,可與 OpenAI 的 gpt-realtime 及字節跳動的 Seeduplex 進行同條件比較,在重複聲響計數、咳嗽辨識及音樂風格判斷等場景中,Audio-Interaction 能逐輪輸出有意義的回應。

Audio-Interaction 重點摘要:

  • 統一架構:以單一模型同時支援離線與即時音訊任務,涵蓋辨識、翻譯及對話。
  • 感知—決策—回應循環:模型自行判斷回應時機,貼近真實人機互動節奏。
  • SoundFlow 訓練流程:結合資料拼接、塊級決策訓練與靜音感知,提升即時判斷能力。
  • 低延遲推論:異步 FIFO 推論使首幀延遲降低約 4.5 倍。
  • 完全開源:提供技術報告、程式碼及即時試聽 Demo,方便研究與應用。

這個項目特別適合從事語音 AI、對話系統及多模態互動研究的開發者與團隊,能為需要即時音訊理解的產品,例如智能助手、會議記錄、聽障輔助等,提供一個統一且靈活的基礎模型。

項目: https://xzf-thu.github.io/Audio-Interaction/

Categories: 開源, 香港中文大學, 模型, 模型訓練, 語音

SDPG:自我蒸餾及獎勵的訓練演算法

Repository image for lauyikfung/SDPG

在大型語言模型的後訓練階段,強化學習可驗證獎勵(RLVR)已是數學與程式推理的常用配方。然而當獎勵只給到序列層級,模型在訓練初期容易遇到訊號稀疏、優勢值為負時不穩定的問題。SDPG(Self-Distilled Policy Gradient)正是針對這兩個痛點而設計的開源項目。

這個項目將 GRPO 擴展為一種自我蒸餾式的策略梯度方法:在同一個模型中,學生只接收問題,而教師額外接收特權脈絡 c。兩者之間以 full-vocabulary 的 token-level KL 散度即時計算蒸餾訊號,為訓練提供更密集的監督;同時結合標準差歸一化與可切換的 α 參考正則化,以提升訓練穩定性。由於學生與教師共享同一組參數,整體設計也避免了額外部署大型教師模型所帶來的記憶體負擔。

環境需要 8 張 A100、H100 或 H200,以及本地 Ray 叢集;預設模型為 Qwen/Qwen3-4B,亦可指向本地權重。資料格式採用特殊 token 分隔演員題目與教師脈絡,相關腳本皆已附上。對正在研究 RLHF 或想把推理模型蒸餾得更穩定的團隊而言,這是一個門檻明確、可重現的實作藍本。

重點摘要

  • 在 GRPO 之上加入 exact per-token forward KL 自我蒸餾,緩解稀疏獎勵問題
  • 學生與教師共用同一模型,免去大型教師的額外記憶成本
  • 內建四種 α 正則模式(fkl、rkl、ufkl、urkl),方便消融實驗
  • 預設支援 Qwen/Qwen3-4B,可在 verl RLHF 框架上直接運行
  • 硬體門檻為 8 張 A100/H100/H200,搭配本地 Ray 叢集即可啟動

GitHub: https://github.com/lauyikfung/SDPG

Paper: https://arxiv.org/pdf/2606.04036

Categories: 開源, 模型訓練

TRON 視覺推理環境

TRON overview

TRON(Targeted Rule-verifiable Online Environments for Visual Reasoning RL)由喬治亞大學運算學院的研究團隊開源,是一個用於視覺推理強化學習的環境套件。與傳統固定的圖文題庫不同,TRON 的每個環境都由「生成器」與「驗證器」組成:生成器負責抽樣新的視覺狀態並繪製圖片,驗證器則即時比對模型答案與標準答案,因此每次呼叫都會產生全新題目,數量上不受既有資料集限制。

這個項目解決的核心問題是視覺推理強化學習長期缺乏可擴展、可控制、可驗證的訓練信號。過往做法依賴人工標註或合成指令的靜態資料集,題目數量受限,且難以針對特定難度與技能做調整。TRON 把每道題目變成可程式化的環境,訓練時可依據當前課程難度持續產出新實例,並由驗證器提供精確的獎勵。

套件規模方面,TRON 包含520個環境,分為五大能力類別:空間(111個)、數學(131個)、圖表(144個)、規律(104個)和計數(30個)。同一套環境可同時訓練一個全能力的「full TRON model」,或分別訓練五個針對單一能力的 specialist 模型。團隊亦針對生成穩定性、題目多樣性、跨環境重複率與基礎模型在不同難度的通過率進行了完整的子環境分析。

訓練與評估部分,項目採用 TRON-DAPO 強化學習方法。使用 TRON 進行 RL 後訓練,Qwen3-VL-4B、Qwen2.5-VL-7B 與 MiMo-VL-7B 等多個多模態模型,在十個外部視覺推理基準測試上都有穩定提升。對想研究視覺 RL 的研究人員或團隊而言,TRON 提供了一個現成、可擴展且易於自訂難度的訓練場景。

重點摘要

  • 520個可程式化的視覺推理環境,分屬空間、數學、圖表、規律、計數五大類別。
  • 每次訓練都會即時生成新題目,並由驗證器自動核對答案。
  • 支援訓練單一全能力模型或多個單一能力的 specialist 模型。
  • 內建子環境分析,涵蓋生成穩定性、難度梯度與基礎模型表現。
  • 在多個主流多模態模型上,採用 TRON-DAPO 訓練皆能提升外部基準表現。

GitHub: https://github.com/YangTianze009/TRON

Paper: https://arxiv.org/pdf/2606.01599

Categories: 模型訓練, 深度學習, 視覺模型, Dataset 數據集

MERIT:把音樂相似度拆成三條獨立線索

MERIT architecture

現有的音樂相似度模型大多只輸出一個籠統的總分,把旋律、節奏、音色混在一起計算,使用者很難說明「為何這兩首歌像」。MERIT(Multi-Factor Disentangled Music Similarity)由新加坡科技與設計大學的 AMAAI 實驗室推出,以凍結的 MERT backbone 為基礎,再訓練三個各約 11 MB 的輕量投影頭(projection heads),分別負責旋律(S_mel)、節奏(S_rhy)、音色(S_tim)。一段鋼琴翻唱搖滾歌曲的音檔,會在旋律分數偏高、節奏和音色分數偏低,差異即時可見。

這個項目解決的核心問題是音樂檢索的可解釋性。傳統 CLAP、MuLan 或 MERT 這類自監督音訊模型把多種特徵壓縮到同一向量,餘弦相似度難以拆解;MERIT 改用條件式音訊生成與音源分離技術,自動產生 296K 組「單一變因」三元組訓練資料,免去人工標註。三個頭在 held-out 測試中都達到 ≥99.6% 的三元組準確率,並在零樣本真實音訊探測中各自主導對應的感知維度。

重點摘要:

  • 把相似度拆成旋律、節奏、音色三條獨立訊號
  • 採用凍結 MERT-v1-330M 主幹,僅訓練小型投影頭
  • 透過生成式管線產生 296K 因子控制三元組,無需人工標註
  • 每個頭約 11 MB,總計約 33 MB,方便部署
  • 預訓練權重與資料集已發布於 HuggingFace

合適的場景包括音樂串流平台的進階推薦、音樂學研究中的跨版本比較,以及需要解釋「為何推薦這首」的場景。對一般使用者而言,把 S_mel 較高的曲目組成「同一旋律」歌單,就能體驗到差異。

運作流程相當直接:下載三個 .pt 投影頭,以 Wav2Vec2FeatureExtractor 讀入音檔,從 MERT 指定的第 3、4、5、6、23 層抽取特徵,分別送入三個頭即可得到三組 embedding,再以餘弦相似度比較。模型與資料集皆已開源,有興趣的開發者可從 HuggingFace 取得 amaai-lab/merit 與對應資料集。

GitHub: https://github.com/AMAAI-Lab/MERIT

Paper: https://arxiv.org/pdf/2605.27346

Categories: NVIDIA, OpenClaw, Dataset 數據集

Page 1 of 88
1 2 3 88