DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型(LLM)的推理能力,特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法,即透過少量高品質的合成數據集,讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程,並使用大型語言模型生成自然語言解釋,進而微調一個只有 15 億(1.5b)參數的小型模型,使其能夠進行複雜的數學推理,並在思考(think)和回答(answer)標籤中呈現其推理過程,而最終結果顯示即使是小型模型,也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性,包括數學、程式碼和其他領域,才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON
Categories: 模型, 模型訓練

DeepSeek R1 模型的訓練過程

短片闡述 DeepSeek R1 模型的訓練過程,核心是基於人類回饋的強化學習。首先,短片解釋如何利用人類偏好訓練獎勵模型 (reward model):收集人類對不同模型輸出的評分,透過例如 Softmax 函數和梯階降法,調整獎勵模型,使其給予人類偏好的輸出更高分數。短片亦說明如何使用近端策略最佳化 (PPO) 演算法,結合獎勵模型和價值模型 (value model) 來微調語言模型 (policy network):根據獎勵模型給出的獎勵,以及評價模型預測的獎勵與預期差異 (advantage),調整策略網絡,使其更傾向產生高獎勵的輸出。最後,短片特別介紹 DeepSeek R1 使用的群體相對策略最佳化 (group relative policy optimization),這是一種改良的 PPO 方法,將獎勵與群體內其他輸出的平均獎勵相比,鼓勵產生優於平均水準的輸出,解決了傳統獎勵模型可能出現的「獎勵作弊」問題。

Reinforcement Learning in DeepSeek-R1 | Visually Explained
Categories: 模型, 模型訓練

Prefixing – 簡易提升 RAG 準確度

在向量數據庫應用中,「prefixes」指的是在文本塊輸入嵌入模型之前,在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術,可以顯著提高向量數據庫應用的準確性達 200%。

在 Olama 官方庫中的五個嵌入模型中,只有三個支持「prefixes」,Nomic、Snowflake Arctic 和 Mixed Bread 等。

儘管傳統的 LLM 可能更大,但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計,它們的速度要快得多,並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。

Don’t Embed Wrong!
Categories: 工具, RAG, 教學, 模型, 模型訓練


Ollama 簡易模型優化

您是否曾經被 AI 模型建立的複雜性所淹沒?想像一下,您站在一場令人興奮旅程的門檻上,原本令人畏懼的 AI 模型客製化任務,突然變得令人振奮。

我們探索了 Ollama 的 Modelfile 世界,這是一個強大的工具,旨在改變您與 AI 開發互動的方式。想像一下:您拿了一個普通的模型,比如 Llama3.2,並為它注入新的生命,只需幾行代碼就能定制它的行為。通過每個命令,您為您的模型解鎖新的能力,賦予它個性與目的。

但是,如果您想更深入,將一個 safetensors 模型轉換並整合到您的工作流程中呢?這才是令人興奮的部分!加入我們的旅程,穿越 AI 客製化複雜而迷人的領域。您準備好迎接挑戰了嗎?

The Path To Better Custom Models

Categories: Ollama, 教學, 模型, 模型訓練


Page 2 of 2
1 2