ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MoC 突破時空限制:AI 長影片生成

AI 不僅能創造出栩栩如生的圖片,還能生成數分鐘、甚至更長,且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而,一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術,正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展,為長影片生成帶來了革命性的解決方案,有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰,在於模型必須能夠在漫長的時間序列中,保持並檢索關鍵事件,同時避免資訊崩潰或內容漂移。現有的擴散變換器(diffusion transformers)雖然在短影片生成方面表現出色,但其自注意力(self-attention)機制的二次方成本,使得處理長序列時,記憶體和計算資源的消耗變得難以承受,導致效率低下且難以優化。這意味著,隨著影片時長的增加,AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定,導致影片內容的連貫性、一致性大大降低。

(more…)
Categories: 字節跳動, 香港中文大學, 開源, 影像模型

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體,一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題,而現有的多攝影機解決方案又往往需要多達20多個攝影機,並進行繁瑣的逐序列優化。然而,一項由ETH Zürich等機構開發的創新技術——MVTracker,正以其獨特的方法,為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)
Categories: 開源, 視覺模型, 3D, 影像處理

MCD-rPPG 非接觸式健康監測的未來

大規模多模態 MCD-rPPG 資料集旨在用於遠程光電容積脈搏波 (rPPG) 和基於視訊的健康生物標記估計。此資料集包含 600 名受試者在靜止和運動後狀態下,從三個攝影機以不同角度拍攝的同步視訊記錄、PPG 和 ECG 訊號以及擴展的健康指標(動脈血壓、血氧飽和度、壓力水平等)。

我們還提供了一個高效的多任務神經網路模型,即使在 CPU 上也可以即時估計臉部視訊中的脈搏波訊號和其他生物標記。(Paper)

(more…)
Categories: 開源, Medical醫學

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

TRAE 2.0 SOLO 實測結果

TRAE 2.0 SOLO 是一款全自動AI編程助理,用戶只需用自然語言描述想法,AI便能自動編寫需求文檔(PRD)、規劃架構、設定技術棧,完成前後端編碼、資料庫連接,並部署至雲端。

整體而言,這是一款功能強大且易用的AI全能開發助手,幫助用戶用一句話完成從設計到部署的整個應用開發過程。

TRAE 2.0 SOLO Review: Zero Bugs AI Coding
Categories: 免費試用, 編程, 教學


EaseMate AI 一站式解決學業、工作、創作

EaseMate AI 是一款免費且多功能的AI助手平台,專為學習、研究、創意和娛樂等不同場景打造,支援繁體中文介面及服務。

主要特色與功能

  • 多語言大模型整合:內建GPT、Gemini、Claude、DeepSeek、LLaMA等多種AI模型,能即時比較不同模型答案,提供最適合你的解決方案。
  • 學習與研究專區:支援PDF閱讀、研究文獻查找、引用管理、數理化題目快速解答、製作題卡與測驗題。
  • 文件與內容助理:可自動翻譯多語言、快速內容摘要、文字重寫、原創度檢測,並能辨識及萃取圖片中的文字內容。
  • 創意與娛樂功能:支援照片風格濾鏡(如吉卜力、迪士尼、樂高等)、寵物照片人物化、AI插畫油畫、AI故事生成、文字轉影片、圖像轉影片等。
The End of Expensive AI Subscriptions?
Categories: 免費試用


ZARA 人類身體活動識別框架

ZARA 是一個用於人類身體活動識別 (HAR Human Activity Recognition) 的新型框架,它利用穿戴式感測器的原始運動數據。傳統的 HAR 系統通常需要針對特定任務的深度學習模型進行昂貴的重新訓練,而且在引入新感測器或未見活動時,其泛化能力和零樣本識別能力有限,同時也缺乏可解釋性。

ZARA 透過結合多感測器檢索增強生成 (RAG)、自動化的成對領域知識注入和層次代理式大型語言模型 (LLM) 推理來克服這些限制。ZARA 不需額外訓練,就能在多種數據集和感測器配置上實現零樣本分類,其性能超越現有方法,並可提供驗證。研究強調了其檢索、知識庫和代理模組在提升準確性和支援決策方面的關鍵作用。

Categories: 開源, 視覺模型, Medical醫學, RAG

Page 2 of 54
1 2 3 4 54