視覺模型 – Infer News

MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧，例如 MiniCPM-V 2.0 僅有 2.4B 參數，而更新的 MiniCPM-V 2.4 則為 2.8B 參數，它們卻能展現出足以媲美甚至超越許多大型模型的實力，例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性，使得 MiniCPM-V 在部署上更具彈性，降低了運算資源的需求，為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色，尤其在 OCR（光學字元辨識）、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊，還能有效地識別圖像中的物件，並進一步進行高層次的語義理解與推理。例如，MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度，而 MiniCPM-V 2.4 更將其提升至 768×768 像素，確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析，還是需要深度圖像理解的應用，MiniCPM-V 都能提供可靠的解決方案。此外，該模型還支援多語言能力，進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM

Watch this video on YouTube

(more…)

Categories: 開源, 視覺模型

ROSE2025 移除影片中任何物件

ROSE2025，全名為「可靠且開放集事件修補（Remove Objects with Side Effects）」。旨在推動電腦視覺領域，為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域，事件修補（Event Inpainting）正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題，包括但不限於：基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體，一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題，而現有的多攝影機解決方案又往往需要多達20多個攝影機，並進行繁瑣的逐序列優化。然而，一項由ETH Zürich等機構開發的創新技術——MVTracker，正以其獨特的方法，為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)

Categories: 開源, 視覺模型, 3D, 影像處理

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾？想放大照片卻又擔心細節盡失？在數位時代，清晰的視覺體驗至關重要。今天，我們將深入探討一項令人興奮的技術——Vision-SR1，一個基於視覺空間推理網路的圖像超解析度解決方案，它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度（Super-Resolution, SR）的目標是從低解析度（Low-Resolution, LR）圖像中重建出高解析度（High-Resolution, HR）圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而，如何有效恢復細節並生成逼真的高解析度圖像，一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目，全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」（用於圖像超解析度的視覺空間推理網路），其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像，而是能夠理解圖像中的空間關係和視覺語義，進而更智慧地推斷和重建缺失的細節。透過這種方式，Vision-SR1 能夠生成更為精確和自然的高解析度圖像，顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

ZARA 人類身體活動識別框架

ZARA 是一個用於人類身體活動識別 (HAR Human Activity Recognition) 的新型框架，它利用穿戴式感測器的原始運動數據。傳統的 HAR 系統通常需要針對特定任務的深度學習模型進行昂貴的重新訓練，而且在引入新感測器或未見活動時，其泛化能力和零樣本識別能力有限，同時也缺乏可解釋性。

ZARA 透過結合多感測器檢索增強生成 (RAG)、自動化的成對領域知識注入和層次代理式大型語言模型 (LLM) 推理來克服這些限制。ZARA 不需額外訓練，就能在多種數據集和感測器配置上實現零樣本分類，其性能超越現有方法，並可提供驗證。研究強調了其檢索、知識庫和代理模組在提升準確性和支援決策方面的關鍵作用。

Categories: 開源, 視覺模型, Medical醫學, RAG

Matrix-Game 2.0 互動世界生成系統

Matrix-Game 2.0 是一套高效、強大的互動世界生成系統，專注於視覺與行動融合，能夠在多種遊戲場景下生成高質量、流暢並可交互的視頻內容，領先於現有主流方案，適合用於前沿AI遊戲和虛擬世界研究。主要由Skywork AI團隊開發。

Categories: 開源, 視覺模型, 3D, 推理引擎, 影像模型, 多模態模型

VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比，這方法在
微粒度基準測試（例如涉及 OCR 相關任務的基準測試）上取得了顯著的提升。

由香港中文大學，香港大學，科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 開源, 香港科技大學, 視覺模型, 推理引擎, 深度學習, 模型

nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM)，專為高效的訓練和實驗而設計。使用純 PyTorch 構建，整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器（SigLIP-B/16-224-85M）與輕量級因果語言模型（SmolLM2-135M）相結合，形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後，在 MMStar 上實現了 35.3% 的準確率，這使其成為低資源 VLM 研究的強大基線。

Categories: 開源, 視覺模型

olmOCR：PDF 文件轉換

olmOCR 是一個開發的開源工具包，可以將 PDF 文件轉換為適合大型語言模型作為訓練用途，或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容，表格、及方程式，甚至能夠準確識別手寫內容。

Categories: 開源, 視覺模型

PaliGemma 2 mix 視覺模型

Google PaliGemma 2 mix 是 Gemma 系列中的一個升級版視覺語言模型，能夠處理多種任務。PaliGemma 2 mix 能夠直接用於大部份常見的場景，提供了不同大小的模型，分別為（3B、10B 和 28B 參數），解析度亦有兩種模式，分別是（224 和 448 像數）。模型擅長處理短文和長文的生成、光學字符識別、影像問答、物件偵測和影像分割等任務，並且可以搭配 Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp 等工具使用。

🚀本地部署谷歌PaliGemma 2 mix视觉大模型！轻松识别图像！支持标记物体位置！支持ORC提取文字内容！支持自然语言问答、文档理解、视觉问答！5分钟带你掌握本地部署全流程！附全部代码与注释说明

Watch this video on YouTube

Categories: 開源, 視覺模型

Page 1 of 2

1 2 Next »