WAPO:穩定 RLVR 訓練時的損失函數項目

logobox

這是一個強化學習訓練工具項目,核心是為 Reinforcement learning with verifiable rewards(RLVR)加入多種損失函數,用來改善語言模型訓練時容易出現的崩潰問題。作者指出,傳統 GRPO 類方法雖然常見,但在 off-policy 更新下仍可能因梯度動態而失穩,所以這個 fork 直接把研究中的新損失實作進 vf.RLTrainer,方便對照測試。

項目內保留了 grpogspodr_dapo 等基線,並新增 wapo。其中 wapo 只針對正向回報的 rollout 更新,配合單向截斷與分組歸一化,思路比一般對稱 clip 更保守,目標是減少把模型推向錯誤方向的更新。

這個項目的新意不在於重新訓練一個模型,而是重新整理「哪些樣本值得被強化」這件事。論文提出的 gradient perspective 也把 token 層面的穩定性拆開分析,對想研究訓練動態的人很有參考價值。

適合以下人使用:
– 做 language model RLVR 研究的人
– 想比較 GRPO、GSPO、DR-DAPO、WAPO 差異的人
– 需要在數學推理或 multi-hop QA 做穩定性實驗的人
– 想沿用 vf.RLTrainer 再加自訂 loss 的開發者

性能方面,附帶的 arXiv 內容表示,WAPO 在數學推理與 multi-hop QA benchmark 上可提升訓練穩定性,並在多個模型家族上達到或超過基線。相關模型或方法包括 RLVR、GRPO、GSPO、DR-DAPO 與 WAPO。

GitHub: https://github.com/layer6ai-labs/wapo

Paper: https://arxiv.org/pdf/2606.16154

Categories: 開源, Qwen, 工具, LangChain, LangGraph, Python, 模型, 模型訓練, 深度學習

ScrapeGraphAI 開啓智能數據抓取新時代!

用AI重塑數據提取方式!ScrapeGraphAI + LangChain + LangGraph 打造最強文章採集和寫作AI智能體!讓內容創作更簡單!

ScrapeGraphAI颠覆传统网络爬虫技术!用AI重塑数据采集方式!支持ollama本地部署!LangChain+LangGraph打造最强全自动文章采集和内容创作AI智能体!让内容创作更简单!

Categories: 工具, LangChain, LangGraph, 教學