musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA(低秩自適應)模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器:一个LoRA,通吃image和edit模型,完美解决角色一致性!

Categories: 開源, 模型訓練

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

ART:特工強化訓練師

ART 是一個開源強化學習框架,它允許 LLM 從經驗中學習,從而提高代理的可靠性。 ART 提供了符合人體工學的框架,可將 GRPO 整合到任何 Python 應用程式中。

RULER(Relative Universal LLM-Elicited Rewards)透過使用 LLM-as-judge 自動評分代理軌跡,消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務,RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程

Categories: 開源, 編程, 深度學習, 模型訓練

Absolute Zero 無人訓練模型!

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練,而是自動生成問題,然後嘗試自動解決問題來進行學習。過往的監督學習,或者強化學習,一般都是由人類設定目標進行監管,而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示,這種模型不僅在這些領域達到了最先進的性能,甚至超越了由人類策劃的數據去訓練的模型。

Categories: 開源, 深度學習, 模型訓練

正確的 LLM 微調數據處理方法

【LLM大模型】如何整理训练数据以及微调优化建议

這部影片主要探討了大型語言模型(LLM)微調數據的整理方法,並針對微調優化提出了實用建議,核心問題包含:

  1. 微調數據集的形式: 應該如何整理微調數據集?
  2. AI 輔助數據整理: 是否能利用 AI 協助整理數據?
  3. 微調效果不佳的原因: 為什麼微調後模型效果不明顯?
  4. 業務場景數據來源: 實際業務中,微調所需的數據從何而來?

影片內容重點

  • 基礎知識科普: 影片首先簡要介紹了大型語言模型的基礎概念,例如自迴歸模型和指令微調等。
  • 數據格式探討: 深入討論了數據格式的重要性,並介紹了 llama factory 框架支持的兩種主要數據格式:Pack 和 saregpt。同時說明如何根據不同的微調任務(如指令微調、預訓練、Function Calling 等)選擇合適的數據格式。
  • 微調優化建議: 分享了多項優化微調效果的建議,包括:
    • 清晰定義任務目標
    • 確保數據質量與多樣性
    • 增加額外信息以豐富數據
    • 靈活調整訓練策略
  • 業務場景數據獲取: 探討了在實際業務場景中,如何獲取和標註微調數據,並強調了數據質量對模型性能的關鍵影響。建議觀眾在開始微調前,務必明確任務目標,並仔細整理和清洗數據。

總體而言,這部影片內容豐富且深入淺出,對於希望了解大型語言模型微調數據整理和優化方法的觀眾來說,具有相當高的參考價值。

Categories: 教學, 模型訓練

DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型(LLM)的推理能力,特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法,即透過少量高品質的合成數據集,讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程,並使用大型語言模型生成自然語言解釋,進而微調一個只有 15 億(1.5b)參數的小型模型,使其能夠進行複雜的數學推理,並在思考(think)和回答(answer)標籤中呈現其推理過程,而最終結果顯示即使是小型模型,也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性,包括數學、程式碼和其他領域,才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON
Categories: 模型, 模型訓練

DeepSeek R1 模型的訓練過程

短片闡述 DeepSeek R1 模型的訓練過程,核心是基於人類回饋的強化學習。首先,短片解釋如何利用人類偏好訓練獎勵模型 (reward model):收集人類對不同模型輸出的評分,透過例如 Softmax 函數和梯階降法,調整獎勵模型,使其給予人類偏好的輸出更高分數。短片亦說明如何使用近端策略最佳化 (PPO) 演算法,結合獎勵模型和價值模型 (value model) 來微調語言模型 (policy network):根據獎勵模型給出的獎勵,以及評價模型預測的獎勵與預期差異 (advantage),調整策略網絡,使其更傾向產生高獎勵的輸出。最後,短片特別介紹 DeepSeek R1 使用的群體相對策略最佳化 (group relative policy optimization),這是一種改良的 PPO 方法,將獎勵與群體內其他輸出的平均獎勵相比,鼓勵產生優於平均水準的輸出,解決了傳統獎勵模型可能出現的「獎勵作弊」問題。

Reinforcement Learning in DeepSeek-R1 | Visually Explained
Categories: 模型, 模型訓練

Prefixing – 簡易提升 RAG 準確度

在向量數據庫應用中,「prefixes」指的是在文本塊輸入嵌入模型之前,在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術,可以顯著提高向量數據庫應用的準確性達 200%。

在 Olama 官方庫中的五個嵌入模型中,只有三個支持「prefixes」,Nomic、Snowflake Arctic 和 Mixed Bread 等。

儘管傳統的 LLM 可能更大,但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計,它們的速度要快得多,並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。

Don’t Embed Wrong!
Categories: 工具, 教學, 模型, RAG, 模型訓練


Page 1 of 2
1 2