RAG 101 – 令 Llama3 增加知識 10倍

"I want Llama3 to perform 10x with my private knowledge" - Local Agentic RAG w/ llama3

影片主要內容:

  • RAG 在知識管理中的應用: 大型語言模型 (LLM) 可以成為強大的 KM 工具,但它們難以處理和理解非結構化數據格式,例如 PDF 和演示文稿。RAG 通過結合檢索和生成技術來解決這一挑戰。該模型會根據用戶的查詢從數據庫中檢索相關文檔,然後使用這些文檔來生成其響應。
  • RAG 實現的挑戰:
    • 數據混亂: 現實世界中的數據通常很混亂,需要在 RAG 使用之前進行清理和轉換。
    • 選擇合適的檢索方法: 不同的檢索方法適用於不同的數據類型。例如,向量搜索可能不適合需要從各種數據源(結構化和非結構化)獲取知識的複雜問題。
    • 答案質量: 確保檢索到的文檔與用戶的查詢相關並完整地回答用戶的問題可能很困難。
  • 高級 RAG 技術: 介紹了一些高級 RAG 技術來提高 RAG 應用程序的質量和可靠性:
    • 更好的數據預處理: 使用 Llama Part 等專門為 LLM 設計的 PDF 解析器等工具可以顯著提高數據質量。
    • 重新排名檢索到的文檔: 而不是將所有檢索到的文檔都提供給 LLM,可以使用排名模型來識別最相關的文檔,從而提高答案的準確性和效率。
    • 混合搜索: 將向量搜索與關鍵字搜索相結合對於需要精確匹配的任務(例如電子商務產品搜索)很有用。
    • Agent RAG: 此技術利用代理來動態推理檢索過程。代理可以修改用戶的查詢,為複雜問題執行逐步檢索,並決定是從檢索到的文檔中生成答案還是進行額外的網絡搜索。
  • 構建本地 Agent RAG 應用程序: 影片講者演示了如何使用大型語言模型 Llama3 和向量數據庫工具 Goose3 構建本地 Agent RAG 應用程序。該應用程序從網站中檢索博客文章並使用它們來回答用戶的查詢。工作流程包括創建檢索模型、定義檢索條件、將條件邏輯納入以確定答案生成方法以及檢查答案的準確性。

影片最後總結 Agent RAG 和更簡單的 RAG 實現之間的權衡。Agent RAG 提供了卓越的質量和控制,但代價是響應速度較慢。

Categories: 教學

RAG 整合 Streamlit 直接與你的文件交談

探討如何使用 RAG (Retrieval-Augmented Generation) 和 Streamlit 建立一個文件交談聊天機器人。這個聊天機器人可以回答使用者關於文件的問題,並提供相關的文件內容。
什麼是 RAG?
RAG 是一種自然語言處理 (NLP) 模型,它可以從大型文件集中檢索和生成文本。它可以用於各種應用,例如客服聊天機器人、文件摘要和文件搜尋等。
什麼是 Streamlit?
Streamlit 是一個 Python 框架,它可以用於建立交互式網頁應用程序。它可以用於資料科學、機器學習和資料視覺化等領域。
建立文件交談聊天機器人
以下是建立文件交談聊天機器人的步驟:
  1. 安裝 RAG 和 Streamlit
  2. 準備文件集
  3. 建立 RAG 模型
  4. 建立 Streamlit 應用程序
  5. 整合 RAG 和 Streamlit
結論
在這篇文章中,我們探討了如何使用 RAG 和 Streamlit 建立一個文件交談聊天機器人。這個聊天機器人可以回答使用者關於文件的問題,並提供相關的文件內容。我們希望這篇文章能夠幫助您建立自己的文件交談聊天機器人。
Categories: 教學, 新聞

用 Python 建立專業級電影推薦 – 機器學習手冊

建立學習專案概念和發展基本技能的最有效方法之一。專案讓您沉浸解決現實世界中的問題,鞏固您的知識並培養批判性思維、適應能力和專案管理專業知識。本指南將引導您建立量身訂製的電影推薦系統

Categories: 教學


practicalAI-cn: 實戰中文版

  •  使用 PyTorch 實現基本的機器學習算法和深度神經網絡。
  • 🖥️ 不需要任何設置,在瀏覽器中使用 Google Colab 運行所有程序。
  • 📦 不僅僅是教程,而是學習產品級的面向對象機器學習編程。
Categories: 教學


大規模中文自然語言處理 nlp_chinese_corpus

語料庫將會不斷擴充。。。

一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)

二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)

Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。

1.維基百科(wiki2019zh)100萬個結構良好的中文詞條

2.新聞語料(news2016zh)250萬篇新聞,含關鍵詞、描述

3.百科問答(baike2018qa)150萬個帶問題類型的問答

4.社區問答json(webtext2019zh)410萬個高質量社區問答,適合訓練超大模型

5.翻譯語料(translation2019zh)520萬個中英文句子對

為什麼需要這個項目

中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,

普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,

在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。

不知道你是否也遇到了這樣的問題?

我們這個項目,就是為瞭解決這一問題貢獻微薄之力。

Categories: 教學

Word2vec 模型構建的實踐過程

Categories: 教學

【LLaMA-Factory】開源語言模型微調專案

Categories: 教學

Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。

  • Inpaint:使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
  • Outpaint:擴展畫布,選擇空白區域並自動填入與現有影像無縫融合的內容。
  • 生成:透過用文字或現有圖像描述它們,從頭開始創建新圖像。支援SD1.5和SDXL。
  • 優化:使用強度滑桿優化現有影像內容,而不是完全取代它。這也非常適合透過繪製(粗略)近似值並以高強度進行細化來為影像添加新內容!
  • 即時繪畫:讓人工智慧即時解讀您的畫布以獲得即時回饋。影片
  • 控制:直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
  • 決議:在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率,並縮放它們以適合您的圖像區域。
  • 升級:將影像升級並豐富至 4k、8k 以上,而不會耗盡記憶體。
  • 作業佇列:根據硬體的不同,影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
  • 歷史:並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
  • 強大的預設設定:多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
  • 自訂:建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學:

This One Simple Plugin Adds Realtime AI Assistance to Krita

Categories: Image, 工具, 教學, 軟件

Page 12 of 13
1 10 11 12 13