教學 – Page 2 – Infer News

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本，基於20B模型進一步訓練，支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢：

精準文字編輯：支援中英文文字的增、刪、改，並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
雙重語義/外觀編輯：不僅能進行風格轉換、物件增刪等視覺外觀編輯，也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL（語義控制）和 VAE 編碼器（外觀控制）實現。
強大跨基準效能：在多個公開基準測試中，Qwen-Image-Edit 在編輯任務上取得了最先進（SOTA）成果。

This new AI image editor is a BEAST. Qwen Image Edit tutorial

Watch this video on YouTube

影片展示了如何利用 FastRTC 建立一個免費且本地運行的語音 AI 代理。這個系統的關鍵優勢在於它無需昂貴的 GPU 即可在 CPU 上運行，並確保使用者資料的 100% 私密性。它結合了 FastRTC 作為即時通訊庫、Gemma 作為語言模型 (LLM) 和 Coqui 作為文本轉語音 (TTS) 引擎，全部皆為開源工具。儘管存在回應延遲和語音自然度等局限性，但此設定在隱私性、成本效益和易用性方面表現出色，尤其適用於語言練習、互動式日記和講故事等不需要即時回應的應用場景。

Build A Free & Local Voice AI Agent Using FastRTC

Watch this video on YouTube

Categories: 教學

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」，僅有頂尖 0.1% 的研究者知曉：直接將原始位元組（raw bytes）輸入大型語言模型（LLMs），並使用代數拓撲（algebraic topology）分析，透過持久同調（persistent homology）揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料（如文字、影像、影片）的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1

Watch this video on YouTube

(more…)

Categories: 編程, 教學, 庫, 深度學習, Embedding

成為頂尖 0.1% AI 研究者的 1 項技能

1 SKILL To Become Top 0.1% AI Researcher

Watch this video on YouTube

影片詳細介紹：1 SKILL To Become Top 0.1% AI Researcher – EP.7 – Making LLMs Take Bytes As Input

這是系列影片的第 7 集，聚焦於 AI 研究中的前沿技術：讓大型語言模型（LLMs）直接以位元組（bytes）作為輸入，繞過傳統的標記化（tokenization）限制。

影片的目標是引導觀眾一步步進行 AI 研究，探討如何在開放源碼社區中領先於像 OpenAI 或 xAI 這樣的巨頭。Vuk Rosić 強調，這項技術能讓模型更快、更高效，因為數位世界本質上就是由位元組組成。他分享自己的研究過程，包括想法構思、代碼解釋、實驗設計，並鼓勵觀眾 fork GitHub 儲存庫參與。影片中提到，Elon Musk 最近表示 xAI 將取代 tokenizer，這讓這項研究更具時效性。

(more…)

Categories: 編程, 教學

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

pyvideotrans 指南

【2025】别再“啃生肉”了！免费开源！这个AI视频翻译神器，一键搞定字幕＆配音，让外语视频秒变“中文版”！| pyvideotrans教程

Watch this video on YouTube

pyvideotrans: 将视频从一种语言翻译为另一种语言，同时支持语音识别转录、语音合成、字幕翻译。

Categories: 開源, 教學, 語音

用 Python 構建 RAG 的每個細節

使用Python构建RAG系统 —— 用代码还原 RAG系统的每个细节

Categories: 教學, RAG

從零寫AI RAG 個人知識庫

影片中，作者使用了 Google 的 embedding 模型和 ChromaDB 向量資料庫來實現這個架構。

RAG 架構簡介 解釋了 RAG 的基本原理，即將長文章拆分成小片段，對每個片段進行 embedding，然後儲存到向量資料庫中，並在使用者提問時找出最相關的片段發送給大型語言模型。
文章分塊 示範如何將一篇關於「令狐沖轉生為史萊姆」的虛構文章進行分塊處理。他首先使用雙回車符作為切分依據，然後進一步優化，將以警號開頭的標題與後續的正文合併。
Embedding 與資料庫儲存 介紹如何使用 Google 的 embedding 模型對分塊後的文本進行 embedding，並將這些 embedding 及其原始文本儲存到 ChromaDB 向量資料庫中。作者特別提到 Google embedding 模型的「儲存」和「查詢」兩種模式。
查詢功能 說明如何透過查詢 embedding 模型並從 ChromaDB 中檢索出與使用者問題最相關的文本片段。
整合大型語言模型 最後，展示如何將查詢到的相關文本片段與使用者問題一起發送給大型語言模型（Gemini Flash 2.5），以生成更準確的回應。

影片強調動手實作的重要性，鼓勵觀眾親自寫一遍程式碼以加深理解。

从零写AI RAG 个人知识库

Watch this video on YouTube

Categories: Gemini, 開源, 教學, Embedding, RAG

n8n 與 ComfyUI 自動化生成本地 AI 視頻

教程展示了AI工具鏈整合的未來趨勢，將碎片化任務轉爲端到端自動化系統，適合想提升創作效率的技術型用戶。若需實作細節，可參考影片中的Docker指令與節點配置截圖。

n8n with ComfyUI AI Video Automation Local Setup Walkthrough

Watch this video on YouTube

Categories: ComfyUI, 教學, 影像模型, 影像處理, txt2img

FaceFusion 3.2.0 GPU 詳細安裝教程

💥 FaceFusion 3.2.0 更新不僅帶來了全新的GPU加速，還提升了不少效能與真實感！

🔍 新功能
1️⃣ YOLO NSFW過濾
2️⃣ 多GPU支援
3️⃣ FLAC音訊輸出
4️⃣ 臉部選擇增強

NEW FaceFusion 3.2.0 GPU Installation – Boost Realism & Performance Like Never Before!

Watch this video on YouTube

Categories: 開源, 教學, 影像模型

Page 2 of 14

« Previous 1 2 3 4 … 14 Next »