MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧,例如 MiniCPM-V 2.0 僅有 2.4B 參數,而更新的 MiniCPM-V 2.4 則為 2.8B 參數,它們卻能展現出足以媲美甚至超越許多大型模型的實力,例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性,使得 MiniCPM-V 在部署上更具彈性,降低了運算資源的需求,為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色,尤其在 OCR(光學字元辨識)、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊,還能有效地識別圖像中的物件,並進一步進行高層次的語義理解與推理。例如,MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度,而 MiniCPM-V 2.4 更將其提升至 768×768 像素,確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析,還是需要深度圖像理解的應用,MiniCPM-V 都能提供可靠的解決方案。此外,該模型還支援多語言能力,進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM
(more…)
Categories: 開源, 視覺模型

ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體,一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題,而現有的多攝影機解決方案又往往需要多達20多個攝影機,並進行繁瑣的逐序列優化。然而,一項由ETH Zürich等機構開發的創新技術——MVTracker,正以其獨特的方法,為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)
Categories: 開源, 視覺模型, 3D, 影像處理

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

ZARA 人類身體活動識別框架

ZARA 是一個用於人類身體活動識別 (HAR Human Activity Recognition) 的新型框架,它利用穿戴式感測器的原始運動數據。傳統的 HAR 系統通常需要針對特定任務的深度學習模型進行昂貴的重新訓練,而且在引入新感測器或未見活動時,其泛化能力和零樣本識別能力有限,同時也缺乏可解釋性。

ZARA 透過結合多感測器檢索增強生成 (RAG)、自動化的成對領域知識注入和層次代理式大型語言模型 (LLM) 推理來克服這些限制。ZARA 不需額外訓練,就能在多種數據集和感測器配置上實現零樣本分類,其性能超越現有方法,並可提供驗證。研究強調了其檢索、知識庫和代理模組在提升準確性和支援決策方面的關鍵作用。

Categories: 開源, 視覺模型, Medical醫學, RAG


VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 香港大學, 香港中文大學, 開源, 香港科技大學, 視覺模型, 推理引擎, 深度學習, 模型

nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM),專為高效的訓練和實驗而設計。使用純 PyTorch 構建,整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器(SigLIP-B/16-224-85M)與輕量級因果語言模型(SmolLM2-135M)相結合,形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後,在 MMStar 上實現了 35.3% 的準確率,這使其成為低資源 VLM 研究的強大基線。

Categories: 開源, 視覺模型

olmOCR:PDF 文件轉換

olmOCR 是一個開發的開源工具包,可以將 PDF 文件轉換為適合大型語言模型作為訓練用途,或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容,表格、及方程式,甚至能夠準確識別手寫內容。

Categories: 開源, 視覺模型

PaliGemma 2 mix 視覺模型

Google PaliGemma 2 mix 是 Gemma 系列中的一個升級版視覺語言模型,能夠處理多種任務。PaliGemma 2 mix 能夠直接用於大部份常見的場景,提供了不同大小的模型,分別為(3B、10B 和 28B 參數),解析度亦有兩種模式,分別是(224 和 448 像數)。模型擅長處理短文和長文的生成、光學字符識別、影像問答、物件偵測和影像分割等任務,並且可以搭配 Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp 等工具使用。

🚀本地部署谷歌PaliGemma 2 mix视觉大模型!轻松识别图像!支持标记物体位置!支持ORC提取文字内容!支持自然语言问答、文档理解、视觉问答!5分钟带你掌握本地部署全流程!附全部代码与注释说明
Categories: 開源, 視覺模型

Page 1 of 2
1 2