Gemini 2.0 語音及影像應用程式

透過 Gemini 2.0 API 和 Next.js 框架,作者分享了如何建構一個實時多模態應用程式。佢能夠接收影像和語音輸入,並透過 WebSocket 傳送至 Gemini API。Gemini API 會生成音頻輸出和文字轉錄,然後整合到有互動功能的聊天介面。教學包括深入探討應用程式的各個組件部分,例如媒體擷取、音訊處理、WebSocket 連線、轉錄服務以及用戶介面的更新。作者亦提供了開源的程式範例,並且逐步加以說明,方便大家由 GitHub 複製,並執行這應用程式。

Categories: Gemini, 多模態模型, 教學

Yolo v12 結合 CNN 和 Transformer

 Yolo v12 是第一個以注意力機制為核心的 YOLO 模型,它將 CNN 和 Transformer 結合,以實現超高速的準確物件檢測。目前注意力機制在訓練模型時侯的能力,已經超越卷積神經網路(CNN),而 YOLO 過往只著重 CNN 的改進。YOLO v12 今次嘗試兼顧注意力機制的優點和 CNN 的準確度,透過引入區域注意力模組(Area Attention Module)和高效層聚合網路(R-E LAN),可以保證速度的同時,亦提升檢測的準確性。YOLO 是什麼

YOLOv12 Explained and How to use it
Categories: 視覺模型, 影像處理, 多模態模型

DeepSeek NSA 原生稀疏注意力

2025 年 2 月 16 日,DeepSeek 提出了一種名為「原生稀疏注意力」(NSA)
Natively trainable Sparse Attention 的新型注意力機制,目的是解決長傳統注意力機制運算量過大的問題。NSA 透過結合分層式 Token 壓縮與硬體加速設計,達成既能有效處理長文本,又不會顯著增加運算負擔的目標。其核心創新點在於演算法與硬體協同優化,保持甚至超越完整注意力模型的性能。實驗證明,NSA 在多項基準測試中表現出色,並且在解碼、前向傳播和反向傳播階段都顯著加速。

【人工智能】DeepSeek再发新研究成果NSA | 原生稀疏注意力机制 | 梁文锋参与 | 超快长上下文训练 | 十倍速度提升 | 动态分层 | 粗粒度压缩 | 细粒度选择 | 滑动窗口
Categories: 推理引擎, 新聞

GPT-SoVITS-WebUI 3 支持粵語 TTS

只要輸入 5 秒的聲音樣本,就可以體驗到 TTS 的聲音轉換,俗稱 “變聲”。而僅需要 1 分鐘的語音訓練數據,就可以微調模型,提升語音的相似度。GPT-SoVITS 目前支持英語、日語、韓語、粵語和中文。提供的 Web 工具令 TTS 操作相當方便,甚至提供歌曲與伴奏分離、自動語音訓練、中文自動語音識別(ASR)和文本標注,協助初學者創建訓練數據集和 GPT / SoVITS 模型。

    https://github.com/RVC-Boss/GPT-SoVITS

    Categories: 教學

    Animate Anyone 2 替換角色影片框架

    阿里巴巴推出影片框架 Animate Anyone 2。這是一種新的角色圖像影片框架,能夠解決目前無法在影片中的角色與環境之間建立合理關聯。Animate Anyone 2 由輸入的影片中提取環境訊息,通過一種與形狀無關的遮罩策略來更好地描述角色與環境之間的關係,從而提高物件互動的真實性,最終能夠產生高品質的替換角色影片。

    Categories: 影像處理

    KTransformers 克服資源限制

    KTransformers 透過先進的核心優化技術來增強 Transformers 的體驗。KTransformers 特別為硬件資源有限的本地部署,並支援異構運算,例如量化模型的 GPU/CPU 卸載,令到不同的架構處理器可以協同工作。KTransformers 亦提供了一個 YAML 範本來呼叫特殊的優化指令。结果可以令 RTX 4090 本地運行 DeepSeek-R1、V3 的 671 B 满血版,以 24 Gig VRam 最高推理速度仍達到 14 tokens/s。當然,你亦需要保証足夠 D Ram。

    Categories: 工具, 軟件

    Deepseek – VL2 視覺模型

    DeepSeek-VL2 使用 MoE 混合專家 Mixture-of-Experts 的視覺語言模型,主要在於提升多模態理解能力。DeepSeek-VL2 在視覺問答、光學字元識別、文件理解和視覺基礎等方面表現出色。模型包含三個版本:Tiny、Small 和 Base,並提供了模型下載、Gradio web 介面範例。

    Categories: 多模態模型, 模型

    DeepSeek & Crawl4AI 爬蟲!

    這影片教你如何使用 DeepSeek AI 和 Crawl4AI 驅動網頁爬蟲,甚至無需編寫任何程式,就能輕鬆地從任何網站收集結構化數據。影片同時亦展示了一個實際案例,講解點樣為公司尋找潛在客戶,包括地址、企業名稱和聯絡方式等資訊,然後將數據匯入試算表進行整理和分析。

    Scrape Any Website for FREE & NO CODE Using DeepSeek & Crawl4AI! (Opensource)
    Categories: 工具, 開源, 軟件

    Transformer Lab 桌面 LLM 工作台

    Transformer Lab 是個免費的開源 LLM 工作平台,方便進行微調、評估、匯出和測試,並支援唔同的推理引擎和平台。Transformer Lab 適用於擁有 GPU 或 TPU 的電腦,亦支援 MLX 的 M 系列的蘋果電腦。主要功能包括下載開源模型、智能聊天、計算嵌入、創建和下載訓練數據集、微調和訓練 LLM、以及使用 R A G 與文件互動。

    MAC ImageWIN Image

    Categories: 工具, 開源, 軟件, RAG


    Page 11 of 52
    1 9 10 11 12 13 52