一文读懂大模型核心概念:Token、Tokenizer、向量、维度与参数

前言

接触大模型、多模态AI、向量知识库时,很多人都会被基础概念绕晕:

  • Tokenizer到底是什么?
  • Token和向量有什么本质区别?
  • 图片、音频有没有Tokenizer?
  • 不同模型的Token和向量能不能通用?
  • 固定维度的向量,为何能装下无穷多知识?

今天用大白话+生活化例子,把底层逻辑一次性讲透,零基础也能轻松看懂。

一、什么是 Tokenizer 和 Token

大模型看不懂汉字、英文、图片、音频,它只认数字。

Tokenizer(分词器)只服务于文本。 作用很简单:

把人类的一句话,拆成最小语义碎片,再给每个碎片分配一个唯一数字ID。

被拆分出来的最小语义碎片,就叫 Token

举个实际例子:

原句:人工智能改变了生活

Tokenizer拆分后:

1
人工 | 智能 | 改变 | 了 | 生活

再查表编码,变成一串数字:

1
[1024, 1056, 2089, 35, 4120]

几个必备常识

  • Token不只是单个汉字,可以是词组、词根、标点、英文片段
  • 大模型计费、4K/8K上下文窗口、长度限制,全都按Token算,不是按汉字
  • 简易换算参考:1个汉字 ≈ 1.3~1.5 个Token

二、图像、音频也有Token,为什么没有Tokenizer?

大家会疑惑:

多模态大模型里,图片、音频也按Token计费、算上下文,
为什么没有文本这种Tokenizer?

核心真相:两个Token,名字一样,本质完全不同。

类型 特点
文本Token 靠Tokenizer按词表规则拆分,是人能看懂的文字碎片
图像/音频Token 连续像素、波形信号,没法像文字那样分词,也建不了固定词表

多模态Token是这样生成的:

  • 图像:大图切成小图块 → 编码器提取特征 → 离散量化成抽象数字编号
  • 音频:波形转频谱 → 分帧编码 → 压缩成离散Token

之所以统一叫Token,只是为了适配Transformer架构,统一输入格式、统一计费、统一上下文统计,和文本Tokenizer根本不是一套逻辑。

专业纠正:网上常见说法”把海量影像、图片、文本一起做Tokenizer”,是外行错误表述。Tokenizer只适用于文本;图片、影像、音频不存在传统Tokenizer,正确做法是多模态向量化

三、Token 与 向量(Embedding)的本质区别

一句话彻底分清:

  • Token 是文字的数字编号
  • 向量(Embedding) 是内容的语义特征画像

什么是Token

只是一个单纯的整数ID,好比身份证号。只做唯一标识,本身没有任何语义

比如”猫”编号5201,”狗”编号6892,单看数字,完全看不出它们都属于动物。

什么是向量(Embedding)

是几百至上千维的浮点数数组,好比一个人的性格、爱好、职业档案。

语义越相近的内容,在高维空间里距离越近。
“猫”和”狗”的向量距离,远小于”猫”和”桌子”。

完整流转链路

1
2
3
4
5
6
人类文字
→ Tokenizer
→ Token数字ID
→ 模型嵌入层
→ 高维语义向量
→ 大模型运算推理

实用场景区分

场景 看什么
计费、上下文限制、字数统计 Token
知识库RAG、语义检索、以图搜图、内容聚类 向量

四、不同大模型的Token和向量,能否通用?

结论:完全不通用,互不兼容。

Token编号不统一

每个大模型都有独立专属词表,词表大小、分词规则、子词收录全都不一样。

同样四个字”人工智能”:

  • 有的模型拆成4个单字Token
  • 有的拆成「人工、智能」2个词组Token

对应的数字ID完全不同

向量绝不互通

就算巧合下,同一个Token在两个模型编号相同,对应的高维向量数值也完全不一样。每个模型的语义空间都是独立训练的,A模型建好的向量库,直接给B模型完全用不了。

实战铁律:搭建海量图文知识库、RAG系统,一旦选定某个Embedding模型,就不要随意更换,换模型等同于向量库全部作废。

五、同一大模型,向量维度是固定的吗?

同一款大模型,向量维度永久固定。

无论输入:

  • 一个字
  • 一句话
  • 一篇长文
  • 一张图片
  • 一段音频

最终输出的语义向量,维度完全统一。模型训练完成后,向量维度就被结构写死,不会随意变动。

行业常见维度: 768维、1024维、4096维、8192维。

规律很简单:模型规模越大,向量维度越高,语义区分能力越精细。

六、终极疑问:参数有限、维度固定,为何能表达无穷知识?

很多人都有这个困惑:大模型只有几十亿、几百亿参数,向量维度又是固定的,为什么能承载远超参数数量的文字、图片和海量知识?

底层核心逻辑:高维向量靠组合爆炸表达语义,不是一一对应存储。

  • 向量每一维都是连续浮点数,取值近乎无限
  • 语义由所有维度联合组合表达,不是一个维度对应一种含义
  • 固定维度的高维空间,能表达的独立语义是天文数字,远超模型总参数量

通俗比喻:

  • 模型参数,只是搭建高维空间的框架骨架,数量有限
  • 高维向量,是空间里的无数特征坐标

依靠维度组合变化,就能容纳近乎无限的语义与知识,根本不需要给每条知识,单独占用一个参数。

七、全文核心总结

  1. Tokenizer仅适用于文本,图片、音频没有传统Tokenizer
  2. Token是无语义的编号,向量是承载语义的高维特征
  3. 不同大模型的Token编号、向量语义空间,完全不互通
  4. 同一模型所有内容向量维度固定,模型越大维度通常越高
  5. 有限参数搭建高维空间,靠组合爆炸承载无穷语义
  6. 海量图文影像资料治理,不用做Tokenizer,正确方案是多模态向量化