Open-LLM-VTuber 透過免持語音互動、語音中斷、Live2D 臉部辨識和跨平臺本地運行的長期記憶與任何 LLM 交談LLM 推理後端、語音辨識和語音合成器均設計為可交換。此專案可以配置為在 macOS、Linux 和 Windows 上離線運行。也支援線上 LLM/ASR/TTS 選項。 Categories: 模型
LLaMA-Omni 低延遲、高品質的語音互動模型 LLaMA-Omni是基於Llama-3.1-8B-Instruct所建構的低延遲、高品質的端對端語音互動模型,旨在實現GPT-4o等級的語音能力。 – ictnlp/LLaMA-Omni Categories: 新聞
Speech-to-speech 語音到語音開源模組 GitHub – huggingface/speech-to-speech: Speech To Speech: an effort for an open-sourced and modular GPT4-oSpeech To Speech: an effort for an open-sourced and modular GPT4-o – huggingface/speech-to-speech Categories: 新聞
kotaemon 一個基於 RAG 的開源工具 GitHub – Cinnamon/kotaemon: An open-source RAG-based tool for chatting with your documents.An open-source RAG-based tool for chatting with your documents. – Cinnamon/kotaemon Categories: 新聞
CogVideo 文字 > 影片產生 GitHub – THUDM/CogVideo: Text-to-video generation: CogVideoX (2024) and CogVideo (ICLR 2023)Text-to-video generation: CogVideoX (2024) and CogVideo (ICLR 2023) – THUDM/CogVideo Categories: Video, 模型
RagFlow:終極 RAG 引擎 – 語意搜尋、嵌入、向量搜尋 + 支援圖形! RagFlow: Ultimate RAG Engine - Semantic Search, Embeddings, Vector Search + Supports Graph! Watch this video on YouTube Categories: 教學, RAG
GraphRAG – Llama 3.1 和 Neo4j 本影片介紹如何使用開源模型執行 GraphRAG – Llama 3.1 和 Neo4j 作為圖形資料庫 Local GraphRAG with LLaMa 3.1 - LangChain, Ollama & Neo4jWatch this video on YouTube Categories: 教學, 模型, RAG
ComfyUI – 設計師都在用的節點式 Stable Diffusion 一鍵進階ComfyUI目前使用 Stable Diffusion 進行創作的工具主要有兩個:WebUI 和 ComfyUI。 Categories: Stable Diffusion, 教學, 模型