Embedding

Qwen3-VL-Embedding-2B

「Qwen3-VL-Embedding-2B」是 Qwen 家族中最新的多模態信息檢索和交叉模態理解模型。可在同一向量空間做相似度計算，方便做「跨模態檢索」與「圖文混合檢索」。

Embedding 維度可控：預設最高 2048 維，但支援使用者自訂輸出維度 64–2048，可依儲存成本與下游模型需求調整（例如 256/512 維用於向量 DB）。

模型規模與 context length：2B 參數，context 長度 32k，適合放在邊緣或低資源伺服器上，同時能處理長文檔、多 frame 影片描述等輸入。

模型	Gemini Multimodal Embeddings	Qwen3-VL-Embedding (2B/8B)
模態支援	文字、圖片、video（含 audio 軌道，1 FPS + 音頻特徵）	文字、圖片、截圖、video（多 frame），混合任意組合
語言	多語（英文主導）	30+ 語言，強中文/多語對齊
維度	固定 1408	可自訂 64–4096（預設 2048）
Context	Video 上限 1-3 小時	32K tokens（長影片多 frame）
開源	否（API）	是（HF/GitHub，Apache 2.0）
成本	$0.0001/1000 chars（text），更高 video/image	免費本地，GPU 硬體成本
整合	Vertex AI / Gemini API，易 scale	Transformers/vLLM，量化友好

1. 圖像和文本檢索系統：可以用於基於文本描述搜索相關圖像，或者基於圖像內容搜索相關文本描述。
2. 視頻推薦平台：將視頻和文本描述映射到共享表示空間，以提高視頻推薦的準確性。
3. 多模態內容管理：對於包含圖像、文本和視頻的大型數據集，可以進行有效的內容聚類和組織。
4. 社交媒體分析：分析和理解跨文本和圖像的用戶生成內容。
5. 教育和培訓：藉助於視覺問答和多模態學習材料，提供個性化的學習體驗。

Categories: 阿里巴巴, Qwen, Embedding, 多模態模型, 視覺模型, 開源

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」，僅有頂尖 0.1% 的研究者知曉：直接將原始位元組（raw bytes）輸入大型語言模型（LLMs），並使用代數拓撲（algebraic topology）分析，透過持久同調（persistent homology）揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料（如文字、影像、影片）的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1

Watch this video on YouTube

(more…)

Categories: Embedding, 庫, 教學, 深度學習, 編程

從零寫AI RAG 個人知識庫

影片中，作者使用了 Google 的 embedding 模型和 ChromaDB 向量資料庫來實現這個架構。

RAG 架構簡介 解釋了 RAG 的基本原理，即將長文章拆分成小片段，對每個片段進行 embedding，然後儲存到向量資料庫中，並在使用者提問時找出最相關的片段發送給大型語言模型。
文章分塊 示範如何將一篇關於「令狐沖轉生為史萊姆」的虛構文章進行分塊處理。他首先使用雙回車符作為切分依據，然後進一步優化，將以警號開頭的標題與後續的正文合併。
Embedding 與資料庫儲存 介紹如何使用 Google 的 embedding 模型對分塊後的文本進行 embedding，並將這些 embedding 及其原始文本儲存到 ChromaDB 向量資料庫中。作者特別提到 Google embedding 模型的「儲存」和「查詢」兩種模式。
查詢功能 說明如何透過查詢 embedding 模型並從 ChromaDB 中檢索出與使用者問題最相關的文本片段。
整合大型語言模型 最後，展示如何將查詢到的相關文本片段與使用者問題一起發送給大型語言模型（Gemini Flash 2.5），以生成更準確的回應。

影片強調動手實作的重要性，鼓勵觀眾親自寫一遍程式碼以加深理解。

从零写AI RAG 个人知识库

Watch this video on YouTube

Categories: Gemini, Embedding, RAG, 教學, 開源

最先進的文本嵌入模型 gemini-embedding-exp-03-07

Embedding 文字嵌入，意思是將文字轉換為有意義的向量數值。其主要目的是為了讓 A.I. 開發者能夠利用這些向量，實現更精準的語義搜尋，即使查詢與文本內容的詞彙不完全相同也能找到相關資訊。

Google 宣布推出一個新的實驗性 Gemini 文字嵌入模型，稱為 gemini-embedding-exp-03-07。這個模型繼承了語言和細微語境的理解，適合廣泛的應用。這個新模型超越了 Google 之前的最先進模型，並在多語言文本嵌入基準測試（MTEB）中名列前茅，同時還提供了更長的輸入長度等新功能。目前已經可以透過 Gemini API 開始使用。

Categories: Gemini, Embedding, 新聞

影片主要探討多模態嵌入模型 (Multimodal Embedding Models) 與檢索增強生成 (Retrieval-Augmented Generation, RAG) 的應用。作者討論了 Voyage AI 的多模態嵌入模型，並強調模型能有效地將圖像與文字等多種模態的資料整合到同一的嵌入空間，由於傳統的 CLIP 模型在多模態檢索和 RAG 應用中存在模態差距等問題，而 Voyage AI 可以直接將不同模態的資料轉換為 tokens 並輸入 Transformer 編碼器，解決了這些限制。

State-of-the-Art Multimodal Embeddings with Voyage AI

Watch this video on YouTube

Categories: Embedding, 多模態模型

Page Assist 瀏覽器擴充功能

Page Assist 是一個瀏覽器外掛，透過 Ollama 於本機運行 AI 模型，Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料，十分注重隱私。專案是由 MIT 授權。

Categories: Embedding, Ollama, 模型, 開源

Word2Vec詞嵌入技術

將文字轉換成電腦可理解的數值向量的方法。Word2Vec 有兩種主要模型：連續詞袋模型 (CBOW) 和跳字模型 (Skip-gram)，透過反向算法，根據上下文預測目標詞或反之，從而學習詞語間的關係。訓練後的詞向量具有語義相似性的特性，相似的詞彙在向量空間中距離較近，並能透過向量運算進行類比推理，例如「國王-男人+女人=王后」。Word2Vec 應用廣泛，例如搜尋引擎、推薦系統和機器翻譯，但其局限性在於每個詞只有一個固定向量，無法處理多詞片語的語義。

Word Embeddings: Word2Vec

Watch this video on YouTube

Categories: 軟件, Embedding, 教學

詞嵌入 (Word Embeddings) 的概念及其應用

詞嵌入將文字轉換成數值向量，讓機器學習模型能夠處理文字資料。相似的詞彙在向量空間中彼此靠近，距離和方向代表詞彙間的語義關係。片中說明了詞嵌入在自然語言處理 (NLP) 中的關鍵作用，例如文字分類、命名實體辨識和問答系統等。接著，解釋了兩種主要的詞嵌入方法：基於詞頻的方法 (例如TF-IDF) 和基於預測的方法 (例如Word2Vec, GloVe)，並比較了它們的差異。最後，介紹了更先進的基於上下文的方法 (Transformer 模型)，它能根據上下文調整詞彙的向量表示，進一步提升 NLP 的效能。這視頻旨在說明詞嵌入技術如何有效地將人類語言轉換成機器可理解的數值形式，從而推動自然語言處理的發展。

What are Word Embeddings?

Watch this video on YouTube

Categories: Embedding, 教學

RAG 向量中的文件分割策略

文件分割策略對於大型語言模型(LLM)的資訊檢索效能影響。現有資訊檢索基準測試通常以整篇文件的相關性評估效能，忽略了文件分割策略的重要性。RAG 文件分割(Text Chunking) 基於字元/詞(Token) 的分割、遞迴式分割、語義分割等，以找出最適合用於後續基於檢索增強生成（RAG）應用的最佳方法。

The BEST Way to Chunk Text for RAG

Watch this video on YouTube

Chroma 研究技術報告

研究團隊提出了一套新的評估方法，以詞彙層級的相關性作為評估標準，並比較了幾種常見的分割策略，包含 RecursiveCharacterTextSplitter 以及團隊提出的兩種新方法：ClusterSemanticChunker 和 LLMSemanticChunker。實驗結果顯示，不同的分割策略對檢索準確率和效率有顯著影響，某些策略的召回率甚至提升了 9%。

Categories: Embedding, RAG, 教學