教學 – Page 4 – Infer News

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 多模態模型, 影像模型, 影像處理, 教學, 模型, 模型訓練, 視頻模型, 開源

pyvideotrans 指南

【2025】别再“啃生肉”了！免费开源！这个AI视频翻译神器，一键搞定字幕＆配音，让外语视频秒变“中文版”！| pyvideotrans教程

Watch this video on YouTube

pyvideotrans: 将视频从一种语言翻译为另一种语言，同时支持语音识别转录、语音合成、字幕翻译。

Categories: 教學, 語音, 開源

用 Python 構建 RAG 的每個細節

使用Python构建RAG系统 —— 用代码还原 RAG系统的每个细节

Categories: RAG, 教學

從零寫AI RAG 個人知識庫

影片中，作者使用了 Google 的 embedding 模型和 ChromaDB 向量資料庫來實現這個架構。

RAG 架構簡介 解釋了 RAG 的基本原理，即將長文章拆分成小片段，對每個片段進行 embedding，然後儲存到向量資料庫中，並在使用者提問時找出最相關的片段發送給大型語言模型。
文章分塊 示範如何將一篇關於「令狐沖轉生為史萊姆」的虛構文章進行分塊處理。他首先使用雙回車符作為切分依據，然後進一步優化，將以警號開頭的標題與後續的正文合併。
Embedding 與資料庫儲存 介紹如何使用 Google 的 embedding 模型對分塊後的文本進行 embedding，並將這些 embedding 及其原始文本儲存到 ChromaDB 向量資料庫中。作者特別提到 Google embedding 模型的「儲存」和「查詢」兩種模式。
查詢功能 說明如何透過查詢 embedding 模型並從 ChromaDB 中檢索出與使用者問題最相關的文本片段。
整合大型語言模型 最後，展示如何將查詢到的相關文本片段與使用者問題一起發送給大型語言模型（Gemini Flash 2.5），以生成更準確的回應。

影片強調動手實作的重要性，鼓勵觀眾親自寫一遍程式碼以加深理解。

从零写AI RAG 个人知识库

Watch this video on YouTube

Categories: Gemini, Embedding, RAG, 教學, 開源

n8n 與 ComfyUI 自動化生成本地 AI 視頻

教程展示了AI工具鏈整合的未來趨勢，將碎片化任務轉爲端到端自動化系統，適合想提升創作效率的技術型用戶。若需實作細節，可參考影片中的Docker指令與節點配置截圖。

n8n with ComfyUI AI Video Automation Local Setup Walkthrough

Watch this video on YouTube

Categories: ComfyUI, txt2img, 影像模型, 影像處理, 教學

FaceFusion 3.2.0 GPU 詳細安裝教程

💥 FaceFusion 3.2.0 更新不僅帶來了全新的GPU加速，還提升了不少效能與真實感！

🔍 新功能
1️⃣ YOLO NSFW過濾
2️⃣ 多GPU支援
3️⃣ FLAC音訊輸出
4️⃣ 臉部選擇增強

NEW FaceFusion 3.2.0 GPU Installation – Boost Realism & Performance Like Never Before!

Watch this video on YouTube

Categories: 影像模型, 教學, 開源

LatentSync 1.5 – 最穩定的 LipSync 開源方案

LatentSync 1.5 是 ByteDance 團隊在 GitHub 上發佈的開源專案。1.5 版本增強了中文影片的表現。它的主要功能是直接地將音頻資訊轉換成為逼真的口型動作。專案提供了完整的訓練和推論程式碼，包含資料處理流程、兩種模型訓練步驟（U-Net 和 SyncNet），以及詳細的推論指令。

LatentSync 1.5 | 2025最强数字人，完美适配无人直播间，带货必备，优化中文语音，唇形同步！

Watch this video on YouTube

LatentSync In ComfyUI Another Level Of AI Talking Avatar—Open Source Plus It Works!

Watch this video on YouTube

Categories: 影像處理, 教學

HeyGem – Heygen 的開源平替產品

HeyGem AI，一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音，創造出獨特的數字人，你可以選擇透過文字，或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面，核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品：HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析，效果，资源需求，牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI（147）

Watch this video on YouTube

Categories: 教學, 數字人, 語音

DeepSeek-R1 的強化學習可視化

影片主要講解 DeepSeek R1 模型背後的強化學習演算法，並著重於如何透過人類回饋來訓練獎勵模型。包括如何根據人類對不同回應的偏好來調整獎勵值。接著深入探討 “近端策略優化”（Proximal Policy Optimization）演算法的細節。同時亦探討如何利用 “優勢函數”（Advantage Function）避免偏離原始策略。最後，影片亦解釋了如何運用群體策略優化成高於平均水準的回應，同時亦阻止了低於平均水準的回應，而因此提升了模型的推理能力。

Reinforcement Learning in DeepSeek-R1 | Visually Explained

Watch this video on YouTube

Categories: DeepSeek, 教學, 模型, 開源

Gemini 2.0 語音及影像應用程式

透過 Gemini 2.0 API 和 Next.js 框架，作者分享了如何建構一個實時多模態應用程式。佢能夠接收影像和語音輸入，並透過 WebSocket 傳送至 Gemini API。Gemini API 會生成音頻輸出和文字轉錄，然後整合到有互動功能的聊天介面。教學包括深入探討應用程式的各個組件部分，例如媒體擷取、音訊處理、WebSocket 連線、轉錄服務以及用戶介面的更新。作者亦提供了開源的程式範例，並且逐步加以說明，方便大家由 GitHub 複製，並執行這應用程式。

Categories: Gemini, 多模態模型, 教學

Page 4 of 15

« Previous 1 2 3 4 5 6 … 15 Next »