Word2Vec詞嵌入技術

將文字轉換成電腦可理解的數值向量的方法。Word2Vec 有兩種主要模型:連續詞袋模型 (CBOW) 和跳字模型 (Skip-gram),透過反向算法,根據上下文預測目標詞或反之,從而學習詞語間的關係。訓練後的詞向量具有語義相似性的特性,相似的詞彙在向量空間中距離較近,並能透過向量運算進行類比推理,例如「國王-男人+女人=王后」。Word2Vec 應用廣泛,例如搜尋引擎、推薦系統和機器翻譯,但其局限性在於每個詞只有一個固定向量,無法處理多詞片語的語義。

Word Embeddings: Word2Vec
Categories: 軟件, Embedding, 教學

Prefixing – 簡易提升 RAG 準確度

在向量數據庫應用中,「prefixes」指的是在文本塊輸入嵌入模型之前,在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術,可以顯著提高向量數據庫應用的準確性達 200%。

在 Olama 官方庫中的五個嵌入模型中,只有三個支持「prefixes」,Nomic、Snowflake Arctic 和 Mixed Bread 等。

儘管傳統的 LLM 可能更大,但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計,它們的速度要快得多,並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。

Don’t Embed Wrong!
Categories: 工具, RAG, 模型, 教學, 模型訓練


Screenpipe – 記錄電腦活動的 API

Categories: 軟件, 編程

OpenVINO 2024.5 一體化智能開發

Categories: 軟件, 工具

opik – 最佳化部署深度學習模型

Categories: TensorFlow, 軟件, 工具

Nvidia 開源項目專頁

Categories: 工具


diffusers-image-outpaint 零度解說

Categories: Image, 軟件, 工具, 影像處理, 模型

Autoarena – LLM 效能排行

Categories: 軟件, 工具

Page 5 of 12
1 3 4 5 6 7 12