GLM-V:GLM-4.6V/4.5V/4.1V-思考:透過可擴展的強化學習實現多功能推理

GLM-4.6V 基準測試
zai-org/GLM-V 在GitHub上

GLM-V儲存庫提供了一系列視覺語言模型(VLMs),旨在應對複雜的人工智慧挑戰。研究人員、開發者和AI愛好者若想推動多模式推理的邊界,應該考慮使用GLM-4.6V、GLM-4.5V和GLM-4.1V進行實驗。這些模型在各種任務中表現出色,從圖像和視頻理解到GUI操作和文件分析。對於新手來說,最初專注於GLM-4.5V模型是明智的選擇,因為它具有穩健的性能和全面的文檔。這個模型作為一個堅實的基礎,在深入研究GLM-4.6V的更先進功能之前。

在實際應用中,GLM-V模型通過無縫整合視覺和文本數據來運行。它們可以解釋複雜的場景,理解複雜的文件,甚至協助處理GUI任務。例如,GLM-4.6V模型支持高達128k令牌的上下文窗口,使其能夠高效地處理廣泛的多模式輸入。這種能力使它特別適用於需要長上下文理解的任務,如分析研究報告或處理長篇文件。該模型的原生多模式函數調用功能進一步增強了其實用性,允許直接與視覺元素互動而不需要中間文本轉換。

開發者和企業最受益於這些模型自動化複雜任務和改進決策過程的能力。例如,GLM-4.5V的思考模式切換允許用戶在快速響應和深度推理之間切換,滿足多樣化的需求。這種靈活性在現實世界應用中非常寶貴,那裡速度和準確性必須平衡。此外,儲存庫中包含的桌面助手應用展示了實際用例,例如從PC螢幕捕捉視覺資訊並在各種場景中提供智能服務。

然而,也有一些權衡需要考慮。儘管GLM-V模型提供了令人印象深刻的性能,但它們需要大量的計算資源,特別是對於較大的GLM-4.6V模型。使用者應確保其硬體能夠應對這些模型的需求,以避免性能瓶頸。此外,這些模型的純文本QA能力仍有改進空間,因為目前的重點主要在視覺多模式場景上。開發者可能會遇到偶爾的問題,如重複的思考輸出或格式錯誤,這可能會影響用戶體驗。

為了最大化GLM-V模型的潛力,使用者應熟悉所提供的示例和文檔。儲存庫包括GUI代理和桌面助手的演示,提供關於提示構建和輸出處理的見解。這些示例作為優秀的起點,將GLM-V整合到現有工作流程或開發新應用中。藉助這些資源,開發者可以釋放GLM-V模型的全部潛力,並為推進智能系統領域做出貢獻。

無論你是研究人員探索最新的VLM技術,還是開發者尋求自動化複雜任務,GLM-V都提供了寶貴的解決方案。然而,使用者應當注意計算需求和當前限制。經過仔細考慮和策略應用,GLM-V模型可以顯著提升人工智慧驅動項目的性能和智慧水平。

Source: https://github.com/zai-org/GLM-V

Categories: 模型訓練, 開源

tLLM 推論引擎擴展

tLLM 是 vLLM 推論引擎的運行時擴展層,提供生產者/消費者(Producer/Consumer)架構,能在生產環境中訓練和管理蒸餾器

tLLM 的角色

  • 生產者管道:從 vLLM 推論中即時捕捉 LLM 的深層隱藏狀態(latent representations)
  • 消費者管道:非同步訓練輕量 MLP(~1M 參數),這就是 Latent Distiller(潛在蒸餾器)

tLLM 可應用於醫療問答系統中,提升 RAG 生成的多樣性與準確性,特別適合配合 MedGemma 專案。 透過 ESamp (Exploratory Sampling )方法,在高吞吐 vLLM 服務下動態訓練輕量蒸餾器,引導模型探索未見語義區域,避免重複答案。

案例:醫療 RAG 系統

假設您建置一個基於 MedGemma 的繁體中文醫療 RAG 系統,處理患者查詢如「糖尿病併發症預防」。

  • 標準 vLLM:依賴檢索文件生成單一答案,易陷入常見模式,Pass@1 低於 60%。
  • tLLM + ESamp:啟用生產者管道捕捉隱藏表示,消費者訓練 Latent Distiller(MLP,~1M 參數),使用預測誤差作為新穎度信號。
  • 運行流程:批次 32 查詢並行生成,蒸餾器線上更新(<5% 開銷),重新取樣產生多樣候選(如生活調整、藥物、飲食多視角),Pass@k 提升 20-30%。

此案例在 RTX 4090 上吞吐 4000+ tokens/sec,適合部署於 WhatsApp 查詢閘道,提升 Cantonese/繁中醫療 NLP 效能。 程式碼範例:整合 tLLM 至 vLLM Engine,engine = TLlmEngine.from_engine_args(engine_args) 啟動生產者/消費者。

Categories: 模型訓練, 編程, 開源

3AM 分割影片中具有幾何的內容

3AM 是一種結合了 2D 即時分割模型 SAM2 與 3D 幾何資訊的方法,目的是在影片或任意多視角圖像集合中,對同一物體保持一致的分割 mask。傳統的 2D 追蹤模型(如 SAM2)在觀點大幅變化時會因為只能依賴外觀特徵而失去目標,而早期的 3D 方法則需要提供相機位姿、深度圖或複雜的前處理,才能保證跨視角的一致性。

3AM 的創新在於在模型訓練階段,透過輕量的特徵合併模組把從 MUSt3R(一個多視角重建模型)學到的隱式幾何特徵與 SAM2 的外觀特徵結合,形成既能捕捉空間位置又能反映視覺相似度的表示。這樣的融合讓模型在推論時只需要原始 RGB 影像和使用者提供的提示(點、框、mask 等),就能在不同觀點之間追蹤物體,且不需要額外的相機資訊或前處理步驟。文章指出,這種做法在包含大量視角變化的基準測試集(如 ScanNet++、Replica)上,IoU 數值提升顯著,例如在 ScanNet++ 的 Selected Subset 上比 SAM2Long 高出約 15.9 個百分點。整體而言,3AM 在保持即時、可提示化的特性同時提升了跨視角的一致性,為後續的 3D 實例分割與多視角物體追蹤提供了一個更簡單、更有效的解方案。

Categories: NVIDIA, 影像處理, 模型訓練, 視覺模型, 開源


musubi-tuner 影像微調 (LoRA)

musubi-tuner 提供使用 HunyuanVideo、Wan2.1/2.2、FramePack、FLUX.1 Kontext 和 Qwen-Image 架構訓練 LoRA(低秩自適應)模型的腳本。

Qwen Image LoRA保姆级训练教程 | 秘密武器:一个LoRA,通吃image和edit模型,完美解决角色一致性!

Categories: 模型訓練, 開源

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 模型訓練, 視覺模型, 開源

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 多模態模型, 影像模型, 影像處理, 教學, 模型, 模型訓練, 視頻模型, 開源

ART:特工強化訓練師

ART 是一個開源強化學習框架,它允許 LLM 從經驗中學習,從而提高代理的可靠性。 ART 提供了符合人體工學的框架,可將 GRPO 整合到任何 Python 應用程式中。

RULER(Relative Universal LLM-Elicited Rewards)透過使用 LLM-as-judge 自動評分代理軌跡,消除了手動設計獎勵函數的需要。只需在系統提示字元中定義您的任務,RULER 就會處理剩下的工作—— 無需標記資料、專家回饋或獎勵工程

Categories: 模型訓練, 深度學習, 編程, 開源

Absolute Zero 無人訓練模型!

Absolute Zero 是由清華大學主導的一項創新語言模型訓練方法。這個方法最顯著的特點是不再需要由人類提供的數據進行訓練,而是自動生成問題,然後嘗試自動解決問題來進行學習。過往的監督學習,或者強化學習,一般都是由人類設定目標進行監管,而 Absolute Zero 可以透過自我對弈機制。能夠在數學和程式設計的領域中自動提升推理能力。研究顯示,這種模型不僅在這些領域達到了最先進的性能,甚至超越了由人類策劃的數據去訓練的模型。

Categories: 模型訓練, 深度學習, 開源

正確的 LLM 微調數據處理方法

【LLM大模型】如何整理训练数据以及微调优化建议

這部影片主要探討了大型語言模型(LLM)微調數據的整理方法,並針對微調優化提出了實用建議,核心問題包含:

  1. 微調數據集的形式: 應該如何整理微調數據集?
  2. AI 輔助數據整理: 是否能利用 AI 協助整理數據?
  3. 微調效果不佳的原因: 為什麼微調後模型效果不明顯?
  4. 業務場景數據來源: 實際業務中,微調所需的數據從何而來?

影片內容重點

  • 基礎知識科普: 影片首先簡要介紹了大型語言模型的基礎概念,例如自迴歸模型和指令微調等。
  • 數據格式探討: 深入討論了數據格式的重要性,並介紹了 llama factory 框架支持的兩種主要數據格式:Pack 和 saregpt。同時說明如何根據不同的微調任務(如指令微調、預訓練、Function Calling 等)選擇合適的數據格式。
  • 微調優化建議: 分享了多項優化微調效果的建議,包括:
    • 清晰定義任務目標
    • 確保數據質量與多樣性
    • 增加額外信息以豐富數據
    • 靈活調整訓練策略
  • 業務場景數據獲取: 探討了在實際業務場景中,如何獲取和標註微調數據,並強調了數據質量對模型性能的關鍵影響。建議觀眾在開始微調前,務必明確任務目標,並仔細整理和清洗數據。

總體而言,這部影片內容豐富且深入淺出,對於希望了解大型語言模型微調數據整理和優化方法的觀眾來說,具有相當高的參考價值。

Categories: 教學, 模型訓練

Page 1 of 2
1 2