開源 – Page 5 – Infer News

OpenCode 基於終端機的 AI 開發工具

opencode 是一個基於終端機的 AI 工具，專注於協助開發者在終端機環境中進行編碼、除錯等任務。它提供了一個互動式的終端使用者介面（TUI），並支援多種 AI 模型和語言伺服器協議（LSP），以提供程式碼智能功能。

不同於其他工具（如 Claude Code），opencode 不依賴特定 AI 提供商，支援超過 75 個大型語言模型（LLM）提供商，包括 OpenAI、Anthropic Claude、Google Gemini、AWS Bedrock、Groq、Azure OpenAI 等，甚至支援本地模型。

主要功能

互動式 TUI：使用 Bubble Tea 框架打造，提供流暢的終端機使用者體驗。
多會話管理：支援在同一專案中並行啟動多個 AI 代理。
工具整合：AI 能執行指令、搜尋檔案、修改程式碼，並支援外部工具透過 Model Context Protocol（MCP）進行整合。
LSP 支援：內建語言伺服器協議，提供跨語言的程式碼智能功能。
檔案變更追蹤：追蹤並可視化會話期間的檔案變更。
可分享連結：支援將與 opencode 的對話生成可分享的連結，便於團隊協作或除錯。
支援 Claude Pro：可透過 Anthropic 帳戶登入使用 Claude Pro 或 Max。
自訂功能：支援主題自訂、鍵盤綁定、程式碼格式化工具設定及自訂指令。

Categories: Vibe Coding, 編程, 開源

DeepCode AI 驅動的開發平台

DeepCode 是個 AI 驅動的開發平台，可自動執行程式碼產生和實作任務。我們的多代理系統能夠處理將需求轉化為功能齊全、結構良好的程式碼的複雜性，讓您專注於創新，而不是實現細節。

DeepCode 透過為常見的開發任務提供可靠的自動化來解決這些工作流程效率低下的問題，從而簡化從概念到程式碼的開發工作流程。
https://github.com/HKUDS/DeepCode

DeepCode: This FREE Agentic AI Coder is INSANE!

Watch this video on YouTube

Categories: 香港大學, Vibe Coding, 編程, 開源

Spec-Workflow MCP

模型上下文協定 (MCP) 伺服器為 AI 輔助軟體開發提供結構化的規範驅動的開發工作流程工具，具有即時 Web 儀表板和 VSCode 擴展，可直接在開發環境中監控和管理專案進度。

https://github.com/Pimzino/spec-workflow-mcp

颠覆AI写代码的MCP插件：超越kiro 支持所有AI代码工具，有效减少AI拉扯，提升效率200%

Watch this video on YouTube

Categories: MCP, Vibe Coding, 編程, 開源

SIM Studio AI

Sim Studio 是個輕量、直觀的開源項目及平台，專注於建構和部署基於大型語言模型（LLM）的 AI 代理工作流程。其核心目標是簡化複雜的 AI 代理開發過程，特別是多步驟代理系統的設計與調試。Sim 提供了一個用戶友好的界面，允許開發者通過拖放式工作流程快速構建和整合 AI 功能，並與多種工具（如 GitHub）進行無縫連接。

它提供雲端託管選項（可在 https://sim.ai 使用），以及多種自託管方式，包括 NPM 套件、Docker Compose、Dev Containers 和手動設定。平台支援使用 Ollama 運行本地 AI 模型（可選擇 GPU 或 CPU），並利用向量嵌入來實現知識庫和語義搜尋等功能。開發環境主要基於 JavaScript 運行時 Bun，並需配置 PostgreSQL 資料庫（含 pgvector 擴充）。

Categories: 編程, 開源

USO：統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」，能將任何影像主體融入任何風格，開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上，風格驅動生成模型側重於風格相似性，而主體驅動生成模型則強調主體的一致性，這兩者往往難以兼顧。USO 模型的誕生，打破了這種壁壘，它提出了一種統一的框架，透過對「內容」與「風格」的解耦與重組，實現了兩者的自由組合。無論您想將特定人物融入動漫風格，或是為靜物照片賦予水彩畫的韻味，USO 都能輕鬆應對。

(more…)

Categories: 字節跳動, 影像模型, 影像處理, 開源

VibeVoice：前沿開源文字轉語音模型

VibeVoice 是一個開源，能將文字內容轉化為自然流暢、多角色對話音訊的框架工具。它擁有充滿情感與生命力的聲音。VibeVoice 不僅僅是一個文字轉語音 (TTS) 模型，它更是一個解決傳統 TTS 系統在可擴展性、說話者一致性及自然輪流對話方面重大挑戰的創新框架，特別適用於生成播客等長篇、多說話者的對話音訊。

VibeVoice 的核心創新之一，在於其採用了連續語音分詞器（聲學和語義），並以超低 7.5 Hz 的幀率運行。這些分詞器能有效地保留音訊保真度，同時顯著提升處理長序列的計算效率。此外，VibeVoice 採用了「下一詞元擴散」框架，巧妙地利用大型語言模型 (LLM) 來理解文本語境和對話流程，再透過擴散頭生成高保真度的聲學細節。這使得模型能夠合成長達 90 分鐘的語音，並支援多達 4 位不同的說話者，遠超許多先前模型通常僅限於 1-2 位說話者的限制。

(more…)

Categories: 微軟, 語音, 開源

MiniCPM-V 4.5 視覺與語言結合

MiniCPM-V 的核心亮點在於其驚人的效率與效能平衡。儘管模型尺寸輕巧，例如 MiniCPM-V 2.0 僅有 2.4B 參數，而更新的 MiniCPM-V 2.4 則為 2.8B 參數，它們卻能展現出足以媲美甚至超越許多大型模型的實力，例如 LLaVA-1.5 7B/13B 或 Qwen-VL。這種「小而強大」的特性，使得 MiniCPM-V 在部署上更具彈性，降低了運算資源的需求，為更廣泛的應用場景開啟了大門。

MiniCPM-V 系列在多項關鍵能力上表現出色，尤其在 OCR（光學字元辨識）、物體偵測與視覺推理方面。它不僅能夠精準地從複雜圖像中提取文字資訊，還能有效地識別圖像中的物件，並進一步進行高層次的語義理解與推理。例如，MiniCPM-V 2.0 支援高達 640×640 像素的圖像解析度，而 MiniCPM-V 2.4 更將其提升至 768×768 像素，確保了在細節處理上的卓越表現。這意味著無論是文件處理、街景分析，還是需要深度圖像理解的應用，MiniCPM-V 都能提供可靠的解決方案。此外，該模型還支援多語言能力，進一步擴展了其全球應用的潛力。

MiniCPM-V 4.5: High-Refresh Rate Video Understanding MLLM

Watch this video on YouTube

(more…)

Categories: 視覺模型, 開源

ROSE2025 移除影片中任何物件

ROSE2025，全名為「可靠且開放集事件修補（Remove Objects with Side Effects）」。旨在推動電腦視覺領域，為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域，事件修補（Event Inpainting）正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題，包括但不限於：基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

MoC 突破時空限制：AI 長影片生成

AI 不僅能創造出栩栩如生的圖片，還能生成數分鐘、甚至更長，且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而，一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術，正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展，為長影片生成帶來了革命性的解決方案，有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰，在於模型必須能夠在漫長的時間序列中，保持並檢索關鍵事件，同時避免資訊崩潰或內容漂移。現有的擴散變換器（diffusion transformers）雖然在短影片生成方面表現出色，但其自注意力（self-attention）機制的二次方成本，使得處理長序列時，記憶體和計算資源的消耗變得難以承受，導致效率低下且難以優化。這意味著，隨著影片時長的增加，AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定，導致影片內容的連貫性、一致性大大降低。

(more…)

Categories: 香港中文大學, 字節跳動, 影像模型, 開源

MVTracker 多視角 3D 點追蹤技術突破

在動態場景中精確追蹤物體，一直是電腦視覺領域的一大挑戰。傳統的單目追蹤器常受限於深度模糊和遮擋問題，而現有的多攝影機解決方案又往往需要多達20多個攝影機，並進行繁瑣的逐序列優化。然而，一項由ETH Zürich等機構開發的創新技術——MVTracker，正以其獨特的方法，為多視角3D點追蹤領域帶來革命性的突破。

引領多視角3D追蹤進入數據驅動新時代

(more…)

Categories: 3D, 影像處理, 視覺模型, 開源

Page 5 of 15

« Previous 1 … 3 4 5 6 7 … 15 Next »