SIM Studio AI

Sim Studio 是個輕量、直觀的開源項目及平台,專注於建構和部署基於大型語言模型(LLM)的 AI 代理工作流程。其核心目標是簡化複雜的 AI 代理開發過程,特別是多步驟代理系統的設計與調試。Sim 提供了一個用戶友好的界面,允許開發者通過拖放式工作流程快速構建和整合 AI 功能,並與多種工具(如 GitHub)進行無縫連接。

它提供雲端託管選項(可在 https://sim.ai 使用),以及多種自託管方式,包括 NPM 套件、Docker Compose、Dev Containers 和手動設定。平台支援使用 Ollama 運行本地 AI 模型(可選擇 GPU 或 CPU),並利用向量嵌入來實現知識庫和語義搜尋等功能。開發環境主要基於 JavaScript 運行時 Bun,並需配置 PostgreSQL 資料庫(含 pgvector 擴充)。

Categories: 開源, 編程

USO:統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」,能將任何影像主體融入任何風格,開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上,風格驅動生成模型側重於風格相似性,而主體驅動生成模型則強調主體的一致性,這兩者往往難以兼顧。USO 模型的誕生,打破了這種壁壘,它提出了一種統一的框架,透過對「內容」與「風格」的解耦與重組,實現了兩者的自由組合。無論您想將特定人物融入動漫風格,或是為靜物照片賦予水彩畫的韻味,USO 都能輕鬆應對。

(more…)
Categories: 字節跳動, 開源, 影像模型, 影像處理

VibeVoice:前沿開源文字轉語音模型

VibeVoice 是一個開源,能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型,它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架,特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一,在於其採用了連續語音分詞器(聲學和語義),並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度,同時顯著提升處理長序列的計算效率。此外,VibeVoice 採用了「下一詞元擴散」框架,巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程,再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音,並支援多達 4 位不同的說話者,遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)
Categories: 開源, 微軟, 語音

MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧,例如 MiniCPM-V 2.0 僅有 2.4B 參數,而更新的 MiniCPM-V 2.4 則為 2.8B 參數,它們卻能展現出足以媲美甚至超越許多大型模型的實力,例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性,使得 MiniCPM-V 在部署上更具彈性,降低了運算資源的需求,為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色,尤其在 OCR(光學字元辨識)、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊,還能有效地識別圖像中的物件,並進一步進行高層次的語義理解與推理。例如,MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度,而 MiniCPM-V 2.4 更將其提升至 768×768 像素,確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析,還是需要深度圖像理解的應用,MiniCPM-V 都能提供可靠的解決方案。此外,該模型還支援多語言能力,進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM
(more…)
Categories: 開源, 視覺模型

ROSE2025 移除影片中任何物件

ROSE2025,全名為「可靠且開放集事件修補(Remove Objects with Side Effects)」。旨在推動電腦視覺領域,為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域,事件修補(Event Inpainting)正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題,包括但不限於:基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MoC 突破時空限制:AI 長影片生成

AI 不僅能創造出栩栩如生的圖片,還能生成數分鐘、甚至更長,且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而,一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術,正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展,為長影片生成帶來了革命性的解決方案,有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰,在於模型必須能夠在漫長的時間序列中,保持並檢索關鍵事件,同時避免資訊崩潰或內容漂移。現有的擴散變換器(diffusion transformers)雖然在短影片生成方面表現出色,但其自注意力(self-attention)機制的二次方成本,使得處理長序列時,記憶體和計算資源的消耗變得難以承受,導致效率低下且難以優化。這意味著,隨著影片時長的增加,AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定,導致影片內容的連貫性、一致性大大降低。

(more…)
Categories: 字節跳動, 香港中文大學, 開源, 影像模型

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體,一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題,而現有的多攝影機解決方案又往往需要多達20多個攝影機,並進行繁瑣的逐序列優化。然而,一項由ETH Zürich等機構開發的創新技術——MVTracker,正以其獨特的方法,為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)
Categories: 開源, 視覺模型, 3D, 影像處理

MCD-rPPG 非接觸式健康監測的未來

大規模多模態 MCD-rPPG 資料集旨在用於遠程光電容積脈搏波 (rPPG) 和基於視訊的健康生物標記估計。此資料集包含 600 名受試者在靜止和運動後狀態下,從三個攝影機以不同角度拍攝的同步視訊記錄、PPG 和 ECG 訊號以及擴展的健康指標(動脈血壓、血氧飽和度、壓力水平等)。

我們還提供了一個高效的多任務神經網路模型,即使在 CPU 上也可以即時估計臉部視訊中的脈搏波訊號和其他生物標記。(Paper)

(more…)
Categories: 開源, Medical醫學

Vision-SR1 獨特的視覺空間推理機制

你是否曾因圖像模糊而感到困擾?想放大照片卻又擔心細節盡失?在數位時代,清晰的視覺體驗至關重要。今天,我們將深入探討一項令人興奮的技術——Vision-SR1,一個基於視覺空間推理網路的圖像超解析度解決方案,它有望徹底改變我們處理低解析度圖像的方式。

圖像超解析度(Super-Resolution, SR)的目標是從低解析度(Low-Resolution, LR)圖像中重建出高解析度(High-Resolution, HR)圖像。這項技術在監控、醫學影像、娛樂等多個領域都有廣泛應用。然而,如何有效恢復細節並生成逼真的高解析度圖像,一直是研究人員面臨的挑戰。Vision-SR1 正是為了解決這一挑戰而誕生的創新方法。

Vision-SR1 項目,全名為「Visual-Spatial Reasoning Network for Image Super-Resolution」(用於圖像超解析度的視覺空間推理網路),其核心在於引入了一個獨特的視覺空間推理機制。這意味著它不僅僅是簡單地放大圖像,而是能夠理解圖像中的空間關係和視覺語義,進而更智慧地推斷和重建缺失的細節。透過這種方式,Vision-SR1 能夠生成更為精確和自然的高解析度圖像,顯著提升視覺品質.。

Categories: 開源, 視覺模型, 模型訓練

Page 2 of 12
1 2 3 4 12