影片介紹如何用 LangGraph、Agentic RAG、Nano-GraphRAG 和 Claude 3.7 Sonnet 製作一個具備推理能力的代理 Agent。作者透過展示了使用不同的工具,令 AI 模型能夠使用計算機、字典和搜尋引擎來增強 AI 模型的能力。
Transformer Lab 桌面 LLM 工作台
Transformer Lab 是個免費的開源 LLM 工作平台,方便進行微調、評估、匯出和測試,並支援唔同的推理引擎和平台。Transformer Lab 適用於擁有 GPU 或 TPU 的電腦,亦支援 MLX 的 M 系列的蘋果電腦。主要功能包括下載開源模型、智能聊天、計算嵌入、創建和下載訓練數據集、微調和訓練 LLM、以及使用 R A G 與文件互動。


![]()
以 Gradio 本地運行 RAG DeepSeek R1
影片教你如何建立一個簡單的 Web 應用程式,使用 Ollama LangChain 和 Gradio,透過檢索增強生成 (RAG) 來查詢 PDF 文件。無論你是 AI 的初學者或已有經驗,只要有興趣用 Web 運行 AI 模型,這教學都非常實用。由於支持離線運作,因此能夠增加安全性,保障私隱,特別是對於使用 AI 處理公司內部文件嘅任務。
DeepRAG 思考式檢索增強生成
實作 Gemini 實時語音 RAG 助手。
利用 Gemini 2.0 的多模態即時 API 來建立一個實時的語音 RAG 助手。RAG,也就是檢索增強生成,肯定是語言模型中最有價值的增強之一。透過上下文感知的回答,它被證明是處理有關最新資訊的問題或任務的有效方法。
由於 Gemini 的多模態即時 API 裡面沒有內建的文件檢索介面,影片將展示如何建立一個自訂的流程,來接收用戶的語音,從提供的文件中檢索內容,然後讓Gemini 以語音回覆。
CAG – RAG 的替代方案
CAG (Cache-Augmented Generation ) 挑戰了目前廣泛使用的 Retrieval-Augmented Generation (RAG) 方法。RAG 方法透過即時搜尋外部知識庫來增強大型語言模型 (LLM) 的能力,但存在延遲、搜尋錯誤以及系統複雜度高等缺點。CAG 則利用具有長上下文窗口的 LLM,預先將所有相關資源載入模型的上下文並預計算關鍵值快取 (KV cache),從而在推理過程中無需即時搜尋即可直接回答問題。透過實驗比較 CAG 和 RAG 在 SQuAD 和 HotPotQA 兩個問答數據集上的效能,結果顯示在知識庫規模有限的情況下,CAG 在效率和準確性上均優於 RAG,尤其在處理長篇文本時,CAG 的速度大幅提升。在特定應用場景下,特別是知識庫大小可控的情況下,CAG 提供了一個更簡潔、高效且準確的替代方案。
OpenWebUI 0.5.2 更新
RAG 向量中的文件分割策略
文件分割策略對於大型語言模型(LLM)的資訊檢索效能影響。現有資訊檢索基準測試通常以整篇文件的相關性評估效能,忽略了文件分割策略的重要性。RAG 文件分割(Text Chunking) 基於字元/詞(Token) 的分割、遞迴式分割、語義分割等,以找出最適合用於後續基於檢索增強生成(RAG)應用的最佳方法。
Prefixing – 簡易提升 RAG 準確度
在向量數據庫應用中,「prefixes」指的是在文本塊輸入嵌入模型之前,在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術,可以顯著提高向量數據庫應用的準確性達 200%。
在 Olama 官方庫中的五個嵌入模型中,只有三個支持「prefixes」,Nomic、Snowflake Arctic 和 Mixed Bread 等。
儘管傳統的 LLM 可能更大,但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計,它們的速度要快得多,並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。


