HeyGem – Heygen 的開源平替產品

HeyGem AI,一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音,創造出獨特的數字人,你可以選擇透過文字,或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面,核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品:HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析,效果,资源需求,牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI(147)

Categories: 數字人, 教學, 語音

FlashVideo 高速生成高解像度影片

FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發,你只需要準備一張或者幾張參考圖片,加上文字提示詞,就可以生成高解像度的影片。過程主要分為兩部份,第一部分是優先處理提示詞,同時以低解像度處理圖片,減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations

Categories: 開源, 香港科技大學, 視頻模型, 影像處理

NotaGen AI 古典音樂現代作曲家

NotaGen 針對160 萬首樂曲進行了訓練,亦根據高品質古典樂譜數據進行了微調。當中包括 8 千 948 張古典樂譜、152 位作曲家,並規劃成為巴洛克、古典及浪漫等三個時期。NotaGen 採用 CLaMP-DPO 強化學習,無需經過人工註釋甚至預先定義的獎勵。結果可以輕易生成非常出色的 Full Score 樂章節同埋五線譜樂章。

相關函式庫:DCML 語料庫OpenScore 弦樂四重奏語料庫OpenScore 歌曲語料庫
ATEPPKernScores

Orchestral_Dance of the Spirits_2352
Categories: 開源

Stable Virtual Camera 3D 擴散模型

Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型,無需複雜的 3D 建模,就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時,它亦提供了靈活的 3D 攝影機控制,用家可以自定攝影軌跡,而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權,主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型

Categories: 開源, 3D, 影像處理, 多模態模型

 MedRAX 肺片推理 Agent

 MedRAX 是個專為胸部 X 光影像 (俗稱肺片) 所設計的醫療推理 Agent。它的主要功能是將 X 光分析工具 C X R,以多模態整合成為一個統一的模型框架,它可以處理複雜的醫療查詢而無需要額外的訓練。為了驗證它的能力,開發團隊透過一個名為 Chest Agent Bench 的綜合評估基準測試,包括 7 個不同類別的 2,500 個醫療查詢。而最終實驗結果顯示 Med RAX 在性能上超越了同類型的模型。

Screenshot

Categories: Medical醫學, OpenAI, Agent

gptme CLI AI 私人助理

gptme 是一個私人 的 AI 助理,透過終端的命令行 C L I,就可以叫系統執行一系列的工作,例如編輯檔案、執行程式、瀏覽網站、資料分析。我們亦可以透過自然語言去執行 Linux Shell 的指令,意思係話,我們不再需要死記指令來操作系統。佢甚至可以通過 AI 視覺進行互動教學。

Categories: 開源, Agent

DeepHermes 3 內置推理的 LLM 模型

DeepHermes 3 Preview 是世界上第一批能夠將推理和正常 L L M 模式整合的模型之一。它包括高級的代理能力、更好的角色扮演、推理、能夠保持十分長的上下文連貫性對話。而且只要簡單的系統提示詞,就可以即刻啟動推理能力 Reasoning。

Categories: 開源, 模型

Python UV 取代 pip

Python UV 是一個以 Rust,編寫的高效能 Python 套件管理器和安裝程式。它能夠簡化 Python 的開發,同時負責管理標準函式庫(Standard Library),或者安裝虛擬環境等等。影片詳細講解了點樣利用 UV 進行完整的開發流程,並且強調 UV 在簡化和統一開發環境方面的優勢。

用uv管理Python的一切!
Categories: 工具, Python

MCP 模型上下文協議

MCP (模型上下文協議) 是一個開放的協議,由 Anthropic 公司發起。它的主要目的是為了更方便大型語言模型整合外部資料。過去,當 AI 系統需要依賴外部資料的時侯,由於不同的資料來源可能有不同的格式和協議,令到 AI 應用程式開發者需要花費大量的精力來處理這些碎片化的系統整合問題,透過採用 MCP,開發者可以更專注於構建更智慧、更具擴展性的 AI 解決方案。

Categories: MCP

RAG 智能升級

影片介紹如何用 LangGraph、Agentic RAG、Nano-GraphRAG 和 Claude 3.7 Sonnet 製作一個具備推理能力的代理 Agent。作者透過展示了使用不同的工具,令 AI 模型能夠使用計算機、字典和搜尋引擎來增強 AI 模型的能力。

RAG Intelligent Upgraded: Agentic RAR + Nano-GraphRAG + Claude 3.7 Sonnet (Oxford Univ)
Categories: 開源, LangGraph, RAG

Page 10 of 54
1 8 9 10 11 12 54