nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM),專為高效的訓練和實驗而設計。使用純 PyTorch 構建,整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器(SigLIP-B/16-224-85M)與輕量級因果語言模型(SmolLM2-135M)相結合,形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後,在 MMStar 上實現了 35.3% 的準確率,這使其成為低資源 VLM 研究的強大基線。


olmOCR:PDF 文件轉換

olmOCR 是一個開發的開源工具包,可以將 PDF 文件轉換為適合大型語言模型作為訓練用途,或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容,表格、及方程式,甚至能夠準確識別手寫內容。


PaliGemma 2 mix 視覺模型

Google PaliGemma 2 mix 是 Gemma 系列中的一個升級版視覺語言模型,能夠處理多種任務。PaliGemma 2 mix 能夠直接用於大部份常見的場景,提供了不同大小的模型,分別為(3B、10B 和 28B 參數),解析度亦有兩種模式,分別是(224 和 448 像數)。模型擅長處理短文和長文的生成、光學字符識別、影像問答、物件偵測和影像分割等任務,並且可以搭配 Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp 等工具使用。

🚀本地部署谷歌PaliGemma 2 mix视觉大模型!轻松识别图像!支持标记物体位置!支持ORC提取文字内容!支持自然语言问答、文档理解、视觉问答!5分钟带你掌握本地部署全流程!附全部代码与注释说明

Yolo v12 結合 CNN 和 Transformer

 Yolo v12 是第一個以注意力機制為核心的 YOLO 模型,它將 CNN 和 Transformer 結合,以實現超高速的準確物件檢測。目前注意力機制在訓練模型時侯的能力,已經超越卷積神經網路(CNN),而 YOLO 過往只著重 CNN 的改進。YOLO v12 今次嘗試兼顧注意力機制的優點和 CNN 的準確度,透過引入區域注意力模組(Area Attention Module)和高效層聚合網路(R-E LAN),可以保證速度的同時,亦提升檢測的準確性。YOLO 是什麼

YOLOv12 Explained and How to use it