ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 開源, 香港大學, 影像模型, 影像處理, 視覺模型, 視頻模型

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體,一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題,而現有的多攝影機解決方案又往往需要多達20多個攝影機,並進行繁瑣的逐序列優化。然而,一項由ETH Zürich等機構開發的創新技術——MVTracker,正以其獨特的方法,為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)
Categories: 開源, 3D, 影像處理, 視覺模型

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 模型訓練, 視覺模型

ZARA 人類身體活動識別框架

ZARA 是一個用於人類身體活動識別 (HAR Human Activity Recognition) 的新型框架,它利用穿戴式感測器的原始運動數據。傳統的 HAR 系統通常需要針對特定任務的深度學習模型進行昂貴的重新訓練,而且在引入新感測器或未見活動時,其泛化能力和零樣本識別能力有限,同時也缺乏可解釋性。

ZARA 透過結合多感測器檢索增強生成 (RAG)、自動化的成對領域知識注入和層次代理式大型語言模型 (LLM) 推理來克服這些限制。ZARA 不需額外訓練,就能在多種數據集和感測器配置上實現零樣本分類,其性能超越現有方法,並可提供驗證。研究強調了其檢索、知識庫和代理模組在提升準確性和支援決策方面的關鍵作用。

Categories: 開源, Medical醫學, RAG, 視覺模型


VisionThink 智慧高效視覺語言模型

VisionThink 利用強化學習自主學習減少視覺 token。與傳統的高效 VLM 方法相比,這方法在
微粒度基準測試(例如涉及 OCR 相關任務的基準測試)上取得了顯著的提升。

由香港中文大學,香港大學,科技大學大聯合開發

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
Categories: 開源, 香港大學, 香港中文大學, 香港科技大學, 推理引擎, 模型, 深度學習, 視覺模型

nanoVLM 輕量級視覺語言模型 (VLM)

nanoVLM 是一種極簡輕量級的視覺語言模型 (VLM),專為高效的訓練和實驗而設計。使用純 PyTorch 構建,整個模型架構和訓練邏輯大約需要 750 行程式碼。它將基於 ViT 的圖像編碼器(SigLIP-B/16-224-85M)與輕量級因果語言模型(SmolLM2-135M)相結合,形成了一個緊湊的 222M 參數模型。該模型使用來自 cauldron 資料集的 170 萬個樣本在單一 H100 GPU 上訓練約 6 小時後,在 MMStar 上實現了 35.3% 的準確率,這使其成為低資源 VLM 研究的強大基線。

Categories: 開源, 視覺模型

olmOCR:PDF 文件轉換

olmOCR 是一個開發的開源工具包,可以將 PDF 文件轉換為適合大型語言模型作為訓練用途,或者用作創建線性文本數據集。olmOCR 可以相當準確提取 PDF 中的文字內容,表格、及方程式,甚至能夠準確識別手寫內容。

Categories: 開源, 視覺模型

PaliGemma 2 mix 視覺模型

Google PaliGemma 2 mix 是 Gemma 系列中的一個升級版視覺語言模型,能夠處理多種任務。PaliGemma 2 mix 能夠直接用於大部份常見的場景,提供了不同大小的模型,分別為(3B、10B 和 28B 參數),解析度亦有兩種模式,分別是(224 和 448 像數)。模型擅長處理短文和長文的生成、光學字符識別、影像問答、物件偵測和影像分割等任務,並且可以搭配 Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp 等工具使用。

🚀本地部署谷歌PaliGemma 2 mix视觉大模型!轻松识别图像!支持标记物体位置!支持ORC提取文字内容!支持自然语言问答、文档理解、视觉问答!5分钟带你掌握本地部署全流程!附全部代码与注释说明
Categories: 開源, 視覺模型

Yolo v12 結合 CNN 和 Transformer

 Yolo v12 是第一個以注意力機制為核心的 YOLO 模型,它將 CNN 和 Transformer 結合,以實現超高速的準確物件檢測。目前注意力機制在訓練模型時侯的能力,已經超越卷積神經網路(CNN),而 YOLO 過往只著重 CNN 的改進。YOLO v12 今次嘗試兼顧注意力機制的優點和 CNN 的準確度,透過引入區域注意力模組(Area Attention Module)和高效層聚合網路(R-E LAN),可以保證速度的同時,亦提升檢測的準確性。YOLO 是什麼

YOLOv12 Explained and How to use it
Categories: 多模態模型, 影像處理, 視覺模型

Page 8 of 8
1 6 7 8