Skill0.5 如何提升強化學習泛化力

Skill0.5 是一個面向 Agentic Reinforcement Learning 的研究項目，聚焦處理 out-of-distribution generalization 問題。它指出傳統 skill-based RL 方法常要在 full externalization 與 full internalization 之間二選一，前者會帶來高昂的 context 開銷，後者則容易出現 overfitting 與知識衝突。

這項目把 general skill internalization 與 task-specific skill utilization 一同納入訓練，但用不同策略處理兩種性質不同的技能。系統會用 difficulty-aware router 按任務難度分流：Hard tasks 用 privileged distillation 內化通用技能，Medium tasks 用標準 RL 提升成功率，Easy tasks 則透過 diagnostic probing 懲罰走捷徑的行為，迫使模型忠實運用任務相關技能。

對初步理解這個項目的人來說，可先把它視為一種「按難度分工」的訓練框架，而不是單一模型結構。使用時要留意 context 開銷被視為問題之一，某程度上也反映較重的外部技能依賴可能增加資源壓力，包括 VRAM 與序列處理成本。

解決 rigid choice 問題，避免只靠 externalization 或 internalization
用 difficulty-aware router 把任務分成 Hard、Medium、Easy 三層
分別結合 privileged distillation、標準 RL 與 diagnostic probing
在 ALFWorld 與 WebShop 中，據摘要所述優於 memory-based 與 skill-based RL baselines

這類項目較適合研究智能代理、任務規劃與泛化能力的人參考，尤其是想改善模型在陌生情境下穩定性的團隊。

訓練和實現時使用 Qwen2.5-7B-Instruct 作為基礎模型。策略最佳化方面採用 GRPO 作為骨幹網絡，組別大小 G = 8，學習率為 1 × 10⁻⁶。訓練在 4 個 H800 GPU 上進行，每次迭代的批次大小為 16 個任務，最大互動範圍設定為 30 步。任務特定技能透過 Qwen3-Embedding-0.6B 取得。

GitHub： https://github.com/JasonZhujp/Skill0_5