
在大型語言模型的後訓練階段,強化學習可驗證獎勵(RLVR)已是數學與程式推理的常用配方。然而當獎勵只給到序列層級,模型在訓練初期容易遇到訊號稀疏、優勢值為負時不穩定的問題。SDPG(Self-Distilled Policy Gradient)正是針對這兩個痛點而設計的開源項目。
這個項目將 GRPO 擴展為一種自我蒸餾式的策略梯度方法:在同一個模型中,學生只接收問題,而教師額外接收特權脈絡 c。兩者之間以 full-vocabulary 的 token-level KL 散度即時計算蒸餾訊號,為訓練提供更密集的監督;同時結合標準差歸一化與可切換的 α 參考正則化,以提升訓練穩定性。由於學生與教師共享同一組參數,整體設計也避免了額外部署大型教師模型所帶來的記憶體負擔。
環境需要 8 張 A100、H100 或 H200,以及本地 Ray 叢集;預設模型為 Qwen/Qwen3-4B,亦可指向本地權重。資料格式採用特殊 token 分隔演員題目與教師脈絡,相關腳本皆已附上。對正在研究 RLHF 或想把推理模型蒸餾得更穩定的團隊而言,這是一個門檻明確、可重現的實作藍本。
重點摘要
- 在 GRPO 之上加入 exact per-token forward KL 自我蒸餾,緩解稀疏獎勵問題
- 學生與教師共用同一模型,免去大型教師的額外記憶成本
- 內建四種 α 正則模式(fkl、rkl、ufkl、urkl),方便消融實驗
- 預設支援 Qwen/Qwen3-4B,可在 verl RLHF 框架上直接運行
- 硬體門檻為 8 張 A100/H100/H200,搭配本地 Ray 叢集即可啟動