SDPG：自我蒸餾及獎勵的訓練演算法

在大型語言模型的後訓練階段，強化學習可驗證獎勵（RLVR）已是數學與程式推理的常用配方。然而當獎勵只給到序列層級，模型在訓練初期容易遇到訊號稀疏、優勢值為負時不穩定的問題。SDPG（Self-Distilled Policy Gradient）正是針對這兩個痛點而設計的開源項目。

這個項目將 GRPO 擴展為一種自我蒸餾式的策略梯度方法：在同一個模型中，學生只接收問題，而教師額外接收特權脈絡 c。兩者之間以 full-vocabulary 的 token-level KL 散度即時計算蒸餾訊號，為訓練提供更密集的監督；同時結合標準差歸一化與可切換的 α 參考正則化，以提升訓練穩定性。由於學生與教師共享同一組參數，整體設計也避免了額外部署大型教師模型所帶來的記憶體負擔。

環境需要 8 張 A100、H100 或 H200，以及本地 Ray 叢集；預設模型為 Qwen/Qwen3-4B，亦可指向本地權重。資料格式採用特殊 token 分隔演員題目與教師脈絡，相關腳本皆已附上。對正在研究 RLHF 或想把推理模型蒸餾得更穩定的團隊而言，這是一個門檻明確、可重現的實作藍本。

重點摘要

在 GRPO 之上加入 exact per-token forward KL 自我蒸餾，緩解稀疏獎勵問題
學生與教師共用同一模型，免去大型教師的額外記憶成本
內建四種 α 正則模式（fkl、rkl、ufkl、urkl），方便消融實驗
預設支援 Qwen/Qwen3-4B，可在 verl RLHF 框架上直接運行
硬體門檻為 8 張 A100/H100/H200，搭配本地 Ray 叢集即可啟動

GitHub： https://github.com/lauyikfung/SDPG

Paper： https://arxiv.org/pdf/2606.04036