認識 Token

Token 是什麼?
Token 是語言模型運算與計費的基本單位。模型會將輸入句子切分為 token,這些 token 可能是單字、子詞、甚至單一字元,每個 token 在模型內都有一個數字編號,模型實際運算都是在這些數值上進行。​

不同模型為什麼 token 計算不一樣?
每個模型的 tokenizer(分詞器)都有自己的 vocab(詞彙表)與切分規則。例如同一句「Hello world」經 OpenAI 的 tokenizer 會產生 3 個 token,但用 Google 或 Anthropic 服務則可能是 4 個或更多/更少,這取決於各家詞彙表設計與切分策略。​

Token 如何產生?
Tokenizer 首先會從語料訓練出一套詞彙表。簡易的做法如「字符級」切分,每一字元都是一個 token,這會造成 token 數暴增。進化的方法是將高頻出現的詞組合成較長的子詞(subword),減少 token 數,進而提升效率。​

罕見詞與特殊語言怎麼分詞?
像人名、亂碼、稀有單詞、冷門語言等若在語料中較少見,會被切成更多更小的 token。這代表使用模型處理中文、粵語、小語種或非主流程式語言時,token 數可能顯著增加,導致 API 成本上升。​

Most devs don't understand how LLM tokens work

Categories: 教學