模型訓練 – Infer News

musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA（低秩自適應）模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器：一个LoRA，通吃image和edit模型，完美解决角色一致性！

Watch this video on YouTube

basic guide to Qwen-Image LoRA training

For fundamentals, you can watch the video, although reading the text will also help. This article is related to the Qwen-Image LoRA character Eva Q…

Categories: 開源, 模型訓練

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾？想放大照片卻又擔心細節盡失？在數位時代，清晰的視覺體驗至關重要。今天，我們將深入探討一項令人興奮的技術——Vision-SR1，一個基於視覺空間推理網路的圖像超解析度解決方案，它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度（Super-Resolution, SR）的目標是從低解析度（Low-Resolution, LR）圖像中重建出高解析度（High-Resolution, HR）圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而，如何有效恢復細節並生成逼真的高解析度圖像，一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目，全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」（用於圖像超解析度的視覺空間推理網路），其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像，而是能夠理解圖像中的空間關係和視覺語義，進而更智慧地推斷和重建缺失的細節。透過這種方式，Vision-SR1 能夠生成更為精確和自然的高解析度圖像，顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

ART：特工強化訓練師

ART 是一個開源強化學習框架，它允許 LLM 從經驗中學習，從而提高代理的可靠性。 ART 提供了符合人體工學的框架，可將 GRPO 整合到任何 Python 應用程式中。

RULER（Relative Universal LLM-Elicited Rewards）透過使用 LLM-as-judge 自動評分代理軌跡，消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務，RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程。

Categories: 開源, 編程, 深度學習, 模型訓練

Absolute Zero 無人訓練模型！

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練，而是自動生成問題，然後嘗試自動解決問題來進行學習。過往的監督學習，或者強化學習，一般都是由人類設定目標進行監管，而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示，這種模型不僅在這些領域達到了最先進的性能，甚至超越了由人類策劃的數據去訓練的模型。

Categories: 開源, 深度學習, 模型訓練

正確的 LLM 微調數據處理方法

【LLM大模型】如何整理训练数据以及微调优化建议

Watch this video on YouTube

這部影片主要探討了大型語言模型（LLM）微調數據的整理方法，並針對微調優化提出了實用建議，核心問題包含：

微調數據集的形式： 應該如何整理微調數據集？
AI 輔助數據整理： 是否能利用 AI 協助整理數據？
微調效果不佳的原因： 為什麼微調後模型效果不明顯？
業務場景數據來源： 實際業務中，微調所需的數據從何而來？

影片內容重點

基礎知識科普： 影片首先簡要介紹了大型語言模型的基礎概念，例如自迴歸模型和指令微調等。
數據格式探討： 深入討論了數據格式的重要性，並介紹了 llama factory 框架支持的兩種主要數據格式：Pack 和 saregpt。同時說明如何根據不同的微調任務（如指令微調、預訓練、Function Calling 等）選擇合適的數據格式。
微調優化建議： 分享了多項優化微調效果的建議，包括：
- 清晰定義任務目標
- 確保數據質量與多樣性
- 增加額外信息以豐富數據
- 靈活調整訓練策略
業務場景數據獲取： 探討了在實際業務場景中，如何獲取和標註微調數據，並強調了數據質量對模型性能的關鍵影響。建議觀眾在開始微調前，務必明確任務目標，並仔細整理和清洗數據。

總體而言，這部影片內容豐富且深入淺出，對於希望了解大型語言模型微調數據整理和優化方法的觀眾來說，具有相當高的參考價值。

Categories: 教學, 模型訓練

DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型（LLM）的推理能力，特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法，即透過少量高品質的合成數據集，讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程，並使用大型語言模型生成自然語言解釋，進而微調一個只有 15 億（1.5b)參數的小型模型，使其能夠進行複雜的數學推理，並在思考（think）和回答（answer）標籤中呈現其推理過程，而最終結果顯示即使是小型模型，也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性，包括數學、程式碼和其他領域，才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON

Watch this video on YouTube

Categories: 模型, 模型訓練

DeepSeek R1 模型的訓練過程

短片闡述 DeepSeek R1 模型的訓練過程，核心是基於人類回饋的強化學習。首先，短片解釋如何利用人類偏好訓練獎勵模型 (reward model)：收集人類對不同模型輸出的評分，透過例如 Softmax 函數和梯階降法，調整獎勵模型，使其給予人類偏好的輸出更高分數。短片亦說明如何使用近端策略最佳化 (PPO) 演算法，結合獎勵模型和價值模型 (value model) 來微調語言模型 (policy network)：根據獎勵模型給出的獎勵，以及評價模型預測的獎勵與預期差異 (advantage)，調整策略網絡，使其更傾向產生高獎勵的輸出。最後，短片特別介紹 DeepSeek R1 使用的群體相對策略最佳化 (group relative policy optimization)，這是一種改良的 PPO 方法，將獎勵與群體內其他輸出的平均獎勵相比，鼓勵產生優於平均水準的輸出，解決了傳統獎勵模型可能出現的「獎勵作弊」問題。

Reinforcement Learning in DeepSeek-R1 | Visually Explained

Watch this video on YouTube

Categories: 模型, 模型訓練

Prefixing – 簡易提升 RAG 準確度

在向量數據庫應用中，「prefixes」指的是在文本塊輸入嵌入模型之前，在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術，可以顯著提高向量數據庫應用的準確性達 200%。

在 Olama 官方庫中的五個嵌入模型中，只有三個支持「prefixes」，Nomic、Snowflake Arctic 和 Mixed Bread 等。

儘管傳統的 LLM 可能更大，但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計，它們的速度要快得多，並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。

Don’t Embed Wrong!

Watch this video on YouTube

Categories: 工具, 教學, 模型, RAG, 模型訓練

手把手教你如何部署大型語言模型

如何使用 vLLM 框架部署大型語言模型。教學包含使用 8B 同 70B 兩個版本作示範，並說明如何在 NVIDIA GPU 上安裝 VLLM，以及如何處理記憶體限制。

台大資訊深度學習之應用 | ADL TA Recitation: LLM Deployment 手把手教你如何部署大型語言模型

Watch this video on YouTube

Categories: 工具, 教學, 模型, 模型訓練

Page 1 of 2

1 2 Next »