DeepSeek-R1-Zero 最顯著的特點是它完全僅使用強化學習 (RL) 進行訓練,而沒有經過監督式微調 (SFT) 的初步階段。它通過試錯來學習,並根據其生成的解決方案所獲得的回饋來調整自身的行為和參數。

在 DeepSeek-R1-Zero 用於推理任務 (例如數學問題、程式編寫等) 的強化學習訓練中,其 Reward (獎勵) 機制主要是基於對模型輸出的自動評估,這種評估通常是規則導向 (rule-based) 的。

具體來說,獎勵的設計會直接反映模型生成的解決方案的正確性或品質。考慮到 DeepSeek-R1-Zero 專注於推理任務,獎勵可能來自於以下幾個方面:

  1. 答案的正確性: 對於有明確正確答案的問題 (例如數學題),如果模型輸出的答案正確,它將獲得正向獎勵;如果錯誤,則可能獲得負向獎勵或零獎勵。
  2. 解題步驟的有效性/邏輯性: 對於需要多步驟推理的問題,獎勵可能不僅僅取決於最終答案,還會評估中間推理步驟的邏輯性和有效性。某些自動評估系統可以檢查推理過程是否遵循了合理的規則或邏輯。
  3. 程式碼的可執行性和正確性: 對於程式編寫任務,模型生成的程式碼是否能夠成功編譯和運行,並且在給定的測試案例上產生正確的輸出,將直接影響所獲得的獎勵。
  4. 與預期格式或約束的符合程度: 在某些推理任務中,輸出需要符合特定的格式或滿足某些約束條件。模型輸出符合這些要求的程度也可能被納入獎勵計算。

DeepSeek-R1-Zero 使用了 Group Relative Policy Optimization (GRPO) 這個 RL 框架。在這個框架下,模型會生成一組可能的輸出 (solutions),然後使用一個獎勵函數來對這些輸出進行評分。這個評分就是用來計算獎勵的基礎。

因此,DeepSeek-R1-Zero 在強化學習中的 Reward 設計是其能夠在沒有監督數據的情況下學習複雜推理能力的關鍵。通過精心設計的規則導向獎勵函數,模型能夠辨別出哪些生成的解決方案是「好」的,哪些是「不好」的,並以此為依據不斷改進其生成推理過程的策略。這種純粹依賴 RL 和自動化獎勵的訓練方式,使得 DeepSeek-R1-Zero 能夠展現出自行演化和發現新推理策略的能力。

DeepSeek-R1-Zero 雖然在訓練時沒有使用大量的人工標註的監督式數據 (supervised data) 來指導每一步的輸出或提供標準答案,但「精心設計的規則導向獎勵函數」是通過一套預先定義的、自動化的規則或演算法來評估模型生成的「解決方案」的品質或正確性。這些規則本身蘊含了特定領域(如數學、程式、邏輯推理)的知識,並作為一種自動化的評判標準來提供回饋信號,而非人工標註。

以下是這種規則導向獎勵函數如何運作的具體方式:

  1. 定義評估規則 (Defining Evaluation Rules): 對於不同的推理任務,設計相應的自動化評估規則。這些規則基於該領域的客觀標準。
    • 數學: 規則可以檢查最終計算結果是否與通過獨立計算程序得出的結果一致。對於更複雜的推理步驟,可以有規則檢查代數轉換是否有效,或是否遵循了已知的數學定理或運算順序。
    • 程式編寫: 規則可以包括嘗試編譯模型生成的程式碼。如果編譯成功,則進一步運行程式碼並使用一組預設的測試案例來驗證其輸出是否正確。程式碼是否符合特定的格式規範或效率要求也可以納入規則。
    • 邏輯推理: 規則可以基於形式邏輯系統。例如,使用自動定理證明器 (automated theorem prover) 來驗證模型得出的結論是否可以從給定的前提通過有效的推理步驟導出。或者檢查模型生成的推理鏈是否遵循了預定義的邏輯推理規則 (如肯定前件、否定後件等)。
  2. 執行模型並生成解決方案 (Executing the Model and Generating Solutions): 在 RL 訓練過程中,DeepSeek-R1-Zero 會根據當前的策略 (policy) 針對給定的問題生成一個解決方案。這個解決方案可能是一個最終答案、一個推理步驟序列,或者一段程式碼。
  3. 應用規則導向獎勵函數評估 (Applying the Rule-Based Reward Function for Evaluation): 將模型生成的解決方案輸入到預先設計好的規則導向獎勵函數中。這個函數會根據上述定義的規則對解決方案進行自動評估。
    • 如果解決方案符合「正確」的標準 (例如數學答案正確、程式碼通過所有測試案例),獎勵函數會返回一個較高的正向獎勵值。
    • 如果解決方案錯誤或不符合標準 (例如數學答案錯誤、程式碼無法編譯或測試失敗),獎勵函數會返回零獎勵或負向懲罰值。
    • 對於部分正確或展示出一定進展的解決方案,可能會有一個梯度的獎勵,例如完成部分推理步驟或通過了部分測試案例。
  4. 將獎勵信號用於策略更新 (Using the Reward Signal for Policy Update): 獎勵函數返回的標量獎勵值被用作強化學習演算法 (如 GRPO) 的回饋信號。RL 演算法根據這個獎勵來更新模型的參數 (即調整其策略),使得模型在未來更有可能生成能夠獲得高獎勵的解決方案。

關鍵點在於:

  • 獎勵的客觀性: 規則導向的評估是客觀且可重複的,不依賴於人工的主觀判斷。
  • 領域知識的體現: 規則本身是將特定領域的正確性或有效性標準編碼進去的方式。這是在沒有大量逐步驟人工標註的情況下引入領域知識的手段。
  • 無需標準解的每個步驟: 與監督學習需要每一步的正確標籤不同,RL 在這裡只需要能夠自動評估最終或中間「解決方案」的品質即可。模型通過試錯學習如何從問題生成高評價的解決方案。

結合 DeepSeek-R1-Zero 使用的 GRPO 算法,它可能不是單獨評估一個輸出,而是生成一批候選解決方案,然後根據規則對這批解決方案進行評分,並可能利用這些相對分數來計算獎勵或更新策略,這有助於更有效地探索和學習。

總而言之,規則導向獎勵函數在 DeepSeek-R1-Zero 中的作用是提供一個自動化的、基於領域客觀標準的「評價者」,讓模型在沒有人工手把手教導每個步驟的情況下,能夠通過嘗試生成解決方案並觀察其「得分」來學習如何進行有效的推理。

參考: