MimicBrush 圖像編輯
MimicBrush 的一種創新的圖像編輯方法,通過提供參考圖像來編輯圖片,而無需明確指定編輯的細節。MimicBrush 的核心思想是「模仿編輯」,只需在原始圖像中用 Brush 標記要編輯的區域,並提供一張參考圖片,模型就會自動理解參考圖像中與目標區域相關的語義,並將其應用於編輯。這種方法使用基於擴散模型的生成框架,通過從影片中隨機選取幀並遮罩部分區域來進行自行監督學習,使模型能夠捕捉不同圖像之間的語義關係,實現零樣本的圖像編輯。研究還提供了一個基準測試,旨在促進未來對此領域的研究。

Multimodal RAG 多模態向量資料庫 ChromaDB
Multimodal RAG!? - Pushing the Boundaries of AI
Categories: 教學
建構一個能夠傾聽和觀察世界的人工智慧助手(逐步教學)(英)
Building an AI assistant that listens and sees the world (Step by step tutorial)
Categories: 教學
whisper.cpp v.1.6.2 源碼: Speech To Text 輕量級模型
進楷優化
更快、更小的 Whisper:深入研究量化和 Torch 編譯
本文透過批次加速,增強基於 PyTorch 的 Whisper 模型性能。透過利用透過轉換器、實現靜態快取以及利用torch.compile,顯著加快模型的推理速度。此外,使用HQQ將 Whisper 模型量化為 4 位,以最小的降級保持轉錄質量,正如字錯誤率 (WER) 基準評估的那樣。

微調前後
Categories: 工具
RAGMeUp 資料集上進行 RAG
Categories: 工具
Hugging Face Spaces 平臺被駭
Categories: 新聞
ChatTTS 對話場景設計的文本轉語音模型
chatTTS语音合成,效果真实如人类,开源免费!Windows、MacOS本地使用教程,附Windows整合包,Colab一键运行脚本。
RAG 如何建立自訂的大型語言模型:綜合指南
(英)How RAG helps Transformers to build customizable Large Language Models: A Comprehensive Guide
自然語言處理 (NLP) 在過去幾年中取得了革命性的進步,這主要是由 Transformer 等複雜語言模型的開發所推動的。在這些進步中,檢索增強生成(RAG)作為一項尖端技術脫穎而出,它顯著增強了語言模型的能力。 RAG 將檢索機制與生成模型結合,創建可自訂、高效且準確的語言模型。讓我們研究一下 RAG 如何幫助 Transformer 建立可自訂的 LLM 及其底層機制、優勢和應用程式。了解 Transformer 及其限制 Transformer 憑藉其處理和生成類人文本的能力徹底改變了 NLP。 Transformer 架構採用自註意力機制

Categories: 教學
Llama中文社區,所有代碼更新適配Llama3
Categories: 模型