
-
安裝 RAG 和 Streamlit
-
準備文件集
-
建立 RAG 模型
-
建立 Streamlit 應用程序
-
整合 RAG 和 Streamlit

建立學習專案概念和發展基本技能的最有效方法之一。專案讓您沉浸解決現實世界中的問題,鞏固您的知識並培養批判性思維、適應能力和專案管理專業知識。本指南將引導您建立量身訂製的電影推薦系統



語料庫將會不斷擴充。。。
一期目標:10個百萬級中文語料 & 3個千萬級中文語料(2019年5月1號)
二期目標:30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料(2019年12月31日)
Update: 增加高質量社區問答json版(webtext2019zh),可用於訓練超大規模NLP模型;添加520萬翻譯語料(translation2019zh)。
1.維基百科(wiki2019zh),100萬個結構良好的中文詞條
2.新聞語料(news2016zh),250萬篇新聞,含關鍵詞、描述
3.百科問答(baike2018qa),150萬個帶問題類型的問答
4.社區問答json版(webtext2019zh),410萬個高質量社區問答,適合訓練超大模型
5.翻譯語料(translation2019zh),520萬個中英文句子對
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在2019年初這個時點上,
普通的從業者、研究人員或學生,並沒有一個比較好的渠道獲得極大量的中文語料。筆者想要訓練一個中文的詞向量,
在百度和github上上搜索了好久,收穫卻很少:要麼語料的量級太小,要麼數據過於成舊,或需要的處理太複雜。
不知道你是否也遇到了這樣的問題?
我們這個項目,就是為瞭解決這一問題貢獻微薄之力。

互動式工作流程,其中人工智慧生成僅用作繪畫時的一種協同工具。
[英文] 詳細教學:
這份簡報提供學習如何製作LoRA 模型的寶貴資訊。在這份簡報中,你將找到以下指導方針:
--train_unet_only 選項,以避免因SDXL中的雙文本編碼器而造成無法預料的訓練結果。此外,簡報還提供了一個使用 Adafactor 優化器的示例配置,該優化器具有固定的學習率,並使用了常數加溫策略。以下是示例配置的代碼片段:
optimizer_type = "adafactor"
optimizer_args = [ "scale_parameter=False", "relative_step=False", "warmup_init=False" ]
lr_scheduler = "constant_with_warmup"
lr_warmup_steps = 100
learning_rate = 4e-7 # 這是SDXL的標準學習率
請點擊這裡查看完整的簡報內容。希望這份簡報能夠幫助你更好地了解如何製作LoRA模型。