A.I. 入門 - InferNews

人工智慧（AI）與機器學習的底層完全是由數學構建而成的。如果要系統性地列出所有 AI 需要的數學基礎，可以將它們分為「四大核心支柱」以及「三大延伸與高階領域」。

以下是為你整理的完整 AI 數學地圖：

核心支柱一：線性代數 (Linear Algebra) —— 空間與資料的轉換

線性代數是 AI 處理資料的語言。在 AI 中，所有的資料（文字、圖片、聲音）都會被轉換成向量和矩陣。

基礎概念： 向量 (Vectors)、矩陣 (Matrices)、張量 (Tensors)。
核心運算： 矩陣乘法、行列式、矩陣的跡 (Trace)。
矩陣分解與空間轉換： * 特徵值與特徵向量 (Eigenvalues & Eigenvectors)
- 奇異值分解 (SVD, Singular Value Decomposition)
- 主成分分析 (PCA) —— 用於資料降維。
AI 應用： 神經網路權重運算、圖像卷積處理、大型語言模型（LLM）的 Embedding（詞嵌入空間）。

核心支柱二：微積分 (Calculus) —— 模型的學習與優化

微積分負責解決 AI 如何「從錯誤中學習」的問題。透過計算變化率，AI 才能調整自身參數。

單變數與多變數微積分： 導數 (Derivatives)、偏導數 (Partial Derivatives)。
重要函數與法則： * 連鎖律 (Chain Rule) —— 深度學習反向傳播算法 (Backpropagation) 的核心。
- 激活函數的導數（如 Sigmoid, ReLU 的導函數）。
向量微積分： 梯度 ($\nabla$, Gradient)、雅可比矩陣 (Jacobian Matrix)、海森矩陣 (Hessian Matrix)。
AI 應用： 計算損失函數的斜率，指引模型參數調整的方向。

核心支柱三：機率與統計 (Probability & Statistics) —— 處理不確定性

AI 的本質是在充滿雜訊的現實世界中做出「最佳猜測」，機率論提供了量化不確定性的工具，統計學則提供了從資料中抽取出規律的方法。

機率基礎： 條件機率、貝氏定理 (Bayes’ Theorem)。
隨機變數與機率分佈： 離散與連續分佈（高斯/常態分佈、二項分佈、對數常態分佈、Poisson 分佈）。
統計推論與估計： * 最大概似估計 (MLE) 與最大後驗機率估計 (MAP)。
- 期望值、變異數、協方差矩陣 (Covariance Matrix)。
- 假設檢定 (Hypothesis Testing)、顯著性差異。
AI 應用： 預測分類機率、擴散模型（Diffusion Models）的去噪、大型語言模型的下一個字預測（Token Prediction）。

核心支柱四：最佳化理論 (Optimization Theory) —— 尋找最完美的解答

微積分給了我們工具，最佳化理論則給了我們「尋找最佳解的策略與地圖」。

無約束最佳化： 梯度下降法 (Gradient Descent)、隨機梯度下降 (SGD)、Adam 優化器。
約束最佳化： 拉格朗日乘數法 (Lagrange Multipliers)、KKT 條件。
凸最佳化 (Convex Optimization)： 確保能找到全局最佳解（Global Minima）而非局部最佳解（Local Minima）。
AI 應用： 讓 AI 模型在訓練時，以最快、最有效率的方式將損失函數（誤差）降到最低。

延伸領域五：資訊論 (Information Theory) —— 衡量學習效率

資訊論原本用於通訊，但在 AI 中，它被用來量化資訊量以及模型預測的準確度。

核心概念： 資訊熵 (Entropy)、交叉熵 (Cross-Entropy)、KL 散度 (KL Divergence)、互資訊 (Mutual Information)。
AI 應用： * 交叉熵損失函數： 幾乎所有分類模型（如貓狗辨識、文字分類）的標準評估指標。
- KL 散度： 用於 VAE（變分自編碼器）與 RLHF（人類回饋強化學習）中，防止模型策略偏離太遠。

延伸領域六：離散數學與圖論 (Discrete Mathematics & Graph Theory) —— 結構化關聯

當資料不是整齊的表格，而是複雜的網路或邏輯關係時，就需要離散數學。

圖論基礎： 節點 (Nodes)、邊 (Edges)、鄰接矩陣 (Adjacency Matrix)、樹狀結構 (Trees)。
數理邏輯與組合數學： 命題邏輯、集合論、排列組合。
AI 應用： * 圖神經網路 (GNN)： 應用於社群網路分析、蛋白質分子結構預測、推薦系統。
- 知識圖譜 (Knowledge Graph)： 讓 AI 具備邏輯推理能力。

延伸領域七：數值分析與高級幾何 (Advanced Domains) —— 穩定性與前沿架構

這屬於較為高階或特定前沿領域才會深入涉獵的數學。

數值分析 (Numerical Analysis)： * 研究浮點數運算的誤差、矩陣運算的數值穩定性（避免梯度爆炸或消失）。
微分幾何與拓撲學 (Differential Geometry & Topology)：
- 幾何深度學習 (Geometric Deep Learning)： 研究非歐幾里得空間（如 3D 點雲、流形空間 Manifold）的資料架構。
實分析與測度論 (Real Analysis & Measure Theory)：
- 用於嚴格證明機率論與深度學習理論的底層收斂性（偏向學術研究）。

💡 學習建議的優先順序

如果你是 AI 的初學者或應用端工程師，建議的點技能順序為：

線性代數 – 微積分 – 機率與統計 – 最佳化理論(梯度下降) – 資訊論(交叉熵)

Infer Kids AI

讓孩子快樂探索 AI 世界

Text Embedding

文本嵌入（Text Embedding）技術與應用指南

Text Embedding（文本嵌入）是一種自然語言處理技術，用於將文本轉換成數值向量，保留其原始文本的意義和結構。這些向量被稱為 Embeddings，它們可以用於許多 NLP 任務，如文本類似度計算、文本生成、文本分類等。 Text Embedding 的目標是將文本轉換成一種可數學化的形式，使得它們能夠與其他數值向量進行比較和運算。這樣可以讓模型在處理文本時，能夠利用傳統的神經網路技術來進行分析和預測。

理解透这两个基本概念，你看所有AI都将豁然开朗

Watch this video on YouTube

常見的 Text Embedding 方法

隨著自然語言處理技術的演進，Text Embedding 的生成方法已從早期的靜態詞向量，發展至如今基於大語言模型的動態上下文向量。以下是目前最常見且主流的方法：

1. 經典靜態向量方法（Static Embeddings）

這類方法為每個單詞生成固定的向量，計算速度快，但無法解決一詞多義的問題。

Word2Vec：是一種用於將單詞轉換成數值向量的方法，它通過訓練 Word Embeddings 模型來獲得每個單詞的向量表達。
GloVe：是一種基於矩陣分解的方法，旨在獲取每個單詞的向量表達，並利用文本中單詞之間的關聯信息來進行學習。
FastText：由 Facebook 開發的 Word2Vec 升級版。它引入了子詞（Subword）的概念，將單詞拆解為 Character n-grams 進行訓練，因此能有效處理未登錄詞（Out-of-Vocabulary, OOV）與錯字問題。

2. 動態上下文編碼方法（Contextualized Embeddings）

這類方法利用預訓練模型，能夠根據單詞在句子中的上下文位置，動態生成不同的向量表達。

BERT（Bidirectional Encoder Representations from Transformers）：是一種基於 transformer 架構的預訓練模型，它通過將文本轉換成向量表達，並且能夠捕捉到文本中的長距離依賴關係。
BGE（Beijing Academy of Artificial Intelligence）：如 bge-large-zh-v1.5，在 MTEB（多任務文本嵌入基準）榜單上名列前茅，對中文的語義相似度計算與檢索任務表現極為優異。
mE5（Multilingual E5）：由微軟開發的嵌入模型，其多語言版本（multilingual-e5-large）在處理中英文混雜的文本時，效果非常精準且穩定。

3. 前沿大模型與長文本嵌入方法（LLM-based & Long-Context Embeddings）

因應大語言模型（LLM）與 RAG（檢索增強生成）的爆發，新一代的 Embedding 具備更強的跨語言能力與龐大的 Token 容納量。

OpenAI Embeddings（如 text-embedding-3-large）：目前商業應用中最普及的方案之一。支援高達 3072 維度的向量，具備極強的跨語言理解能力，並支援縮減維度技術。
Cohere Embeddings：在企業級搜尋中表現出色，特別針對多語言以及含有雜訊的網頁文本進行了深度優化。
Jina Embeddings：主打長文本處理能力，傳統的 BERT 模型通常限制在 512 個 Token，而 Jina 支援高達 8k 甚至更長的輸入，適合分析整篇長報告或論文。

Text Embedding 的重要應用

Text Embedding 在自然語言處理領域有著廣泛的應用，主要包括：

文本類似度計算（Semantic Similarity）：使用 Embeddings 可以比較兩個文本的相似程度。這在問答系統、搜尋引擎以及 RAG（檢索增強生成）的知識庫檢索中是核心技術。
文本分類（Text Classification）：通過將文本轉換成向量表達，可以進行情感分析、垃圾郵件過濾、新聞標籤分類等 NLP 任務。
文本生成（Text Generation）： Embeddings 可以用於生成新的文本，輔助大模型理解輸入提示詞（Prompt），進而達成高質量的文本摘要或文本完成。

15分钟弄懂Token和Embedding 详解LLM与RAG数据处理

Watch this video on YouTube

Learn Text Embeddings in 20 Minutes (full guide for beginners)

Watch this video on YouTube