一文读懂大模型核心概念:Token、Tokenizer、向量、维度与参数
前言
接触大模型、多模态AI、向量知识库时,很多人都会被基础概念绕晕:
- Tokenizer到底是什么?
- Token和向量有什么本质区别?
- 图片、音频有没有Tokenizer?
- 不同模型的Token和向量能不能通用?
- 固定维度的向量,为何能装下无穷多知识?
今天用大白话+生活化例子,把底层逻辑一次性讲透,零基础也能轻松看懂。
一、什么是 Tokenizer 和 Token
大模型看不懂汉字、英文、图片、音频,它只认数字。
Tokenizer(分词器)只服务于文本。 作用很简单:
把人类的一句话,拆成最小语义碎片,再给每个碎片分配一个唯一数字ID。
被拆分出来的最小语义碎片,就叫 Token。
举个实际例子:
原句:人工智能改变了生活
Tokenizer拆分后:
1 | 人工 | 智能 | 改变 | 了 | 生活 |
再查表编码,变成一串数字:
1 | [1024, 1056, 2089, 35, 4120] |
几个必备常识
- Token不只是单个汉字,可以是词组、词根、标点、英文片段
- 大模型计费、4K/8K上下文窗口、长度限制,全都按Token算,不是按汉字
- 简易换算参考:1个汉字 ≈ 1.3~1.5 个Token
二、图像、音频也有Token,为什么没有Tokenizer?
大家会疑惑:
多模态大模型里,图片、音频也按Token计费、算上下文,
为什么没有文本这种Tokenizer?
核心真相:两个Token,名字一样,本质完全不同。
| 类型 | 特点 |
|---|---|
| 文本Token | 靠Tokenizer按词表规则拆分,是人能看懂的文字碎片 |
| 图像/音频Token | 连续像素、波形信号,没法像文字那样分词,也建不了固定词表 |
多模态Token是这样生成的:
- 图像:大图切成小图块 → 编码器提取特征 → 离散量化成抽象数字编号
- 音频:波形转频谱 → 分帧编码 → 压缩成离散Token
之所以统一叫Token,只是为了适配Transformer架构,统一输入格式、统一计费、统一上下文统计,和文本Tokenizer根本不是一套逻辑。
专业纠正:网上常见说法”把海量影像、图片、文本一起做Tokenizer”,是外行错误表述。Tokenizer只适用于文本;图片、影像、音频不存在传统Tokenizer,正确做法是多模态向量化。
三、Token 与 向量(Embedding)的本质区别
一句话彻底分清:
- Token 是文字的数字编号
- 向量(Embedding) 是内容的语义特征画像
什么是Token
只是一个单纯的整数ID,好比身份证号。只做唯一标识,本身没有任何语义。
比如”猫”编号5201,”狗”编号6892,单看数字,完全看不出它们都属于动物。
什么是向量(Embedding)
是几百至上千维的浮点数数组,好比一个人的性格、爱好、职业档案。
语义越相近的内容,在高维空间里距离越近。
“猫”和”狗”的向量距离,远小于”猫”和”桌子”。
完整流转链路
1 | 人类文字 |
实用场景区分
| 场景 | 看什么 |
|---|---|
| 计费、上下文限制、字数统计 | Token |
| 知识库RAG、语义检索、以图搜图、内容聚类 | 向量 |
四、不同大模型的Token和向量,能否通用?
结论:完全不通用,互不兼容。
Token编号不统一
每个大模型都有独立专属词表,词表大小、分词规则、子词收录全都不一样。
同样四个字”人工智能”:
- 有的模型拆成4个单字Token
- 有的拆成「人工、智能」2个词组Token
对应的数字ID完全不同。
向量绝不互通
就算巧合下,同一个Token在两个模型编号相同,对应的高维向量数值也完全不一样。每个模型的语义空间都是独立训练的,A模型建好的向量库,直接给B模型完全用不了。
实战铁律:搭建海量图文知识库、RAG系统,一旦选定某个Embedding模型,就不要随意更换,换模型等同于向量库全部作废。
五、同一大模型,向量维度是固定的吗?
同一款大模型,向量维度永久固定。
无论输入:
- 一个字
- 一句话
- 一篇长文
- 一张图片
- 一段音频
最终输出的语义向量,维度完全统一。模型训练完成后,向量维度就被结构写死,不会随意变动。
行业常见维度: 768维、1024维、4096维、8192维。
规律很简单:模型规模越大,向量维度越高,语义区分能力越精细。
六、终极疑问:参数有限、维度固定,为何能表达无穷知识?
很多人都有这个困惑:大模型只有几十亿、几百亿参数,向量维度又是固定的,为什么能承载远超参数数量的文字、图片和海量知识?
底层核心逻辑:高维向量靠组合爆炸表达语义,不是一一对应存储。
- 向量每一维都是连续浮点数,取值近乎无限
- 语义由所有维度联合组合表达,不是一个维度对应一种含义
- 固定维度的高维空间,能表达的独立语义是天文数字,远超模型总参数量
通俗比喻:
- 模型参数,只是搭建高维空间的框架骨架,数量有限
- 高维向量,是空间里的无数特征坐标
依靠维度组合变化,就能容纳近乎无限的语义与知识,根本不需要给每条知识,单独占用一个参数。
七、全文核心总结
- Tokenizer仅适用于文本,图片、音频没有传统Tokenizer
- Token是无语义的编号,向量是承载语义的高维特征
- 不同大模型的Token编号、向量语义空间,完全不互通
- 同一模型所有内容向量维度固定,模型越大维度通常越高
- 有限参数搭建高维空间,靠组合爆炸承载无穷语义
- 海量图文影像资料治理,不用做Tokenizer,正确方案是多模态向量化