PropMe：測試 LLM「會不會」洩漏訓練資料

大型語言模型（LLMs）會背誦訓練資料，但現有的記憶性評估大多只關心「能不能逼它說出來」，而忽略了「它在一般使用下到底會不會自己講」。PropMe 正是針對這個落差而設計的傾向感知（propensity-aware）評估框架，它把前綴式的能力攻擊（prefix-style capability attacks）與日常、非對抗的生成結果並列比較，計算出模型在真實情境下洩漏訓練資料的傾向。

整個項目的運作有兩大部分。PropMe 負責定義指標與分析邏輯；SimpleTrace 是一個建基於 infini-gram 的輕量離線追蹤流水線，負責為訓練語料建立索引、把模型生成結果對應回來源文檔，再計算出 verbatim、near-verbatim 與傾向轉換後的記憶性指標。流程包含索引建立、unigram 機率預計算、生成結果追蹤、驗證與傾向指標運算等步驟，資料夾 README 都各有詳細說明。

PropMe 以兩個完全開源的模型——Comma 與 DFM Decoder——在 Common Pile 與 Dynaword 兩份雙語資料集上做實驗。結果顯示能力（capability）與傾向（propensity）之間存在穩定落差：前綴攻擊能引出明顯的記憶痕跡，但日常或資料集特定的提示下，傾向分數普遍偏低。另一個有趣的發現是，從 Comma 持續預訓練而成的 DFM Decoder，對 Common Pile 的記憶能力與傾向都下降，顯示後續訓練若側重不同資料，能降低既有的記憶行為。

這個項目適合關注模型安全、版權與資料外洩的研發人員、模型審計人員及學術研究者。如果你正在評估自家模型的記憶風險，PropMe 提供了把「最壞情況抽取性」與「日常洩漏傾向」分開呈現的具體做法，比單純跑前綴攻擊更能反映真實部署風險。

重點摘要：

問題意識：區分模型「被逼才會背」與「日常會背」兩種不同行為。
核心框架：PropMe 負責傾向指標，SimpleTrace 負責把生成結果追蹤回訓練文檔。
技術基礎：建立在 infini-gram 之上，支援 verbatim、near-verbatim 與傾向轉換指標。
評估模型：Comma 與 DFM Decoder，資料集涵蓋 Common Pile 與 Dynaword 兩種語料。
實用價值：為模型記憶性審計提供比純粹對抗攻擊更貼近真實使用的衡量方式。

GitHub： https://github.com/N-essuno/PropMe

Paper： https://arxiv.org/pdf/2606.06286