Qwen 2.5 Omni 7b 通義千問多模態模型

 Qwen 2.5-Omni,是一個由阿里巴巴團隊開發的端對端多模態模型。它的主要目的是統一處理輸入的文字、圖像、音訊和影片,能同時生成文字和自然語音作為回應。模型在多模態輸入的感知、文字與語音的同步生成以及串流處理的優化等方面都採用了創新技術同埋架構,例如 TMRoPE 時間對齊編碼和 Thinker-Talker 架構。下面的影片詳細示範了 Qwen 在不同的應用場景下的優秀表現。

Qwen2.5-Omni-7B: Voice Chat + Video Chat! Powerful New Opensource end-to-end multimodal model
Categories: 開源, 多模態模型, 模型

LatentSync 1.5 – 最穩定的 LipSync 開源方案

LatentSync 1.5 是 ByteDance 團隊在 GitHub 上發佈的開源專案。1.5 版本增強了中文影片的表現。它的主要功能是直接地將音頻資訊轉換成為逼真的口型動作。專案提供了完整的訓練和推論程式碼,包含資料處理流程、兩種模型訓練步驟(U-Net 和 SyncNet),以及詳細的推論指令。

LatentSync 1.5 | 2025最强数字人,完美适配无人直播间,带货必备,优化中文语音,唇形同步!
LatentSync In ComfyUI Another Level Of AI Talking Avatar—Open Source Plus It Works!
Categories: 影像處理, 教學

MCP.so 社群目錄

MCP (Model Context Protocol) 是一種由 Anthropic 開發的開放協定,它可以令到 AI 系統能夠安全地連接各種外部資料來源進行互動,甚至製作自動化流程。 mcp.so 是一個由社群驅動的目錄,收集並整理了眾多第三方開發的 MCP 伺服器,方便用家尋找、分享和了解這些擴展 AI 功能的工具。這些 MCP 伺服器和客戶程式,涵蓋了網頁瀏覽、地圖服務、3D 建模、資料庫存取等多種應用,展現了 MCP 生態系統的豐富潛力。

Categories: MCP

HeyGem – Heygen 的開源平替產品

HeyGem AI,一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音,創造出獨特的數字人,你可以選擇透過文字,或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面,核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品:HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析,效果,资源需求,牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI(147)

Categories: 數字人, 教學, 語音

FlashVideo 高速生成高解像度影片

FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發,你只需要準備一張或者幾張參考圖片,加上文字提示詞,就可以生成高解像度的影片。過程主要分為兩部份,第一部分是優先處理提示詞,同時以低解像度處理圖片,減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations

Categories: 視頻模型, 香港科技大學, 開源, 影像處理

NotaGen AI 古典音樂現代作曲家

NotaGen 針對160 萬首樂曲進行了訓練,亦根據高品質古典樂譜數據進行了微調。當中包括 8 千 948 張古典樂譜、152 位作曲家,並規劃成為巴洛克、古典及浪漫等三個時期。NotaGen 採用 CLaMP-DPO 強化學習,無需經過人工註釋甚至預先定義的獎勵。結果可以輕易生成非常出色的 Full Score 樂章節同埋五線譜樂章。

相關函式庫:DCML 語料庫OpenScore 弦樂四重奏語料庫OpenScore 歌曲語料庫
ATEPPKernScores

Orchestral_Dance of the Spirits_2352
Categories: 開源

Stable Virtual Camera 3D 擴散模型

Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型,無需複雜的 3D 建模,就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時,它亦提供了靈活的 3D 攝影機控制,用家可以自定攝影軌跡,而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權,主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型

Categories: 開源, 3D, 影像處理, 多模態模型

 MedRAX 肺片推理 Agent

 MedRAX 是個專為胸部 X 光影像 (俗稱肺片) 所設計的醫療推理 Agent。它的主要功能是將 X 光分析工具 C X R,以多模態整合成為一個統一的模型框架,它可以處理複雜的醫療查詢而無需要額外的訓練。為了驗證它的能力,開發團隊透過一個名為 Chest Agent Bench 的綜合評估基準測試,包括 7 個不同類別的 2,500 個醫療查詢。而最終實驗結果顯示 Med RAX 在性能上超越了同類型的模型。

Screenshot

Categories: Medical醫學, OpenAI, Agent

gptme CLI AI 私人助理

gptme 是一個私人 的 AI 助理,透過終端的命令行 C L I,就可以叫系統執行一系列的工作,例如編輯檔案、執行程式、瀏覽網站、資料分析。我們亦可以透過自然語言去執行 Linux Shell 的指令,意思係話,我們不再需要死記指令來操作系統。佢甚至可以通過 AI 視覺進行互動教學。

Categories: 開源, Agent

Page 8 of 52
1 6 7 8 9 10 52