从零吃透大模型核心基础：Tokenizer、Embedding、向量、Transformer、Prefill、参数量全梳理

发表于 2026-05-02 更新于 2026-05-23 分类于笔记

日常使用大模型聊天、问答、生成内容时，背后藏着一套完整固定的数据流转逻辑。本文将分词器、词嵌入、隐藏向量、Transformer架构、Prefill预填充、模型层数、维度、参数量等核心知识点串联汇总，用通俗逻辑结合运算关系拆解底层原理，搭建完整的大模型基础认知体系。

一、核心基础名词概念汇总

Tokenizer 分词器

大模型文本处理的第一道入口，模型无法直接识别完整语句，需要按照内置词典规则，将文本切割为最小处理单元。拆分单元可以是单字、词语、子词或是标点符号，只有完成分词得到单元序列，才能开展后续向量化计算。

Token

文本经过分词处理后得到的最小语义单元，每一个单元都会被分配专属数字编号。编号本身不承载语义，仅作为唯一身份标识。日常统计上下文长度、计算调用计费，均以Token作为统计单位。

Embedding 词嵌入

将离散的文字单元，转化为计算机可识别运算的多维数字向量的过程。语义含义相近的内容，转化后的向量数值分布也会更加贴合；语义差异较大的内容，向量数值距离会明显拉开。在主流原生大模型中，词嵌入输出的向量维度，和模型内部隐藏维度保持一致。

向量、隐藏向量、中间状态向量

向量是有序数字组成的数组，是模型唯一的运算数据形式。

隐藏向量指代经过词嵌入转换后，在网络内部流转计算的向量数据，这类数据无法被人类直接解读，仅用于特征运算处理，不会直接对外输出。

中间状态向量是向量经过单层网络权重运算、特征变换后产出的阶段性数据，记录当前层级提炼后的语义信息，会持续传递至下一层网络参与计算。

Transformer 变换器

当下绝大多数主流大模型的核心神经网络架构，常见的通用大模型均基于该结构研发搭建。整体由多组结构一致的模块堆叠构成，依靠自注意力机制捕捉语句上下文关联关系，搭配前馈网络结构，完成语义理解、逻辑推导与文本生成工作。

Prefill 预填充阶段

用户提交完整提问内容后，模型一次性对整段输入内容执行分词、词嵌入、编码运算的全过程。该流程仅执行一次，运算结束后会留存上下文状态信息，后续逐字生成回复时不会重复运算，是提升模型推理响应速度的关键环节。

模型隐藏维度

单个向量包含的数字数量，也是模型全程运算统一的标准尺寸。网络内所有权重矩阵规格、向量传输、矩阵运算，都以该维度为基准，同一模型的向量维度固定不变。

模型层数

指代模型内部堆叠的Transformer模块数量，行业标注的32层、96层模型，对应数量的模块层层叠加，层数越高代表网络结构越深。

模型参数量

网络中所有可学习权重矩阵、偏置参数的总和，涵盖词嵌入层参数以及每一层Transformer模块的全部权重数据。参数量的规模大小，直接决定模型的知识储备上限与语义理解能力。

词库

分词器对应的检索词典容量，决定模型能够识别的文字单元范围，常见词典规模分为三万、五万、十万、十五万词元等不同规格。

二、完整数据流转链路

自然语言文本 → 分词拆分得到基础单元 → 词嵌入转换为标准维度向量

→ 整段向量进入预填充环节完成全局编码

→ 向量送入多层堆叠的Transformer网络

→ 依托权重矩阵完成注意力计算与特征提取，逐层生成中间状态向量

→ 复用已编码的上下文信息，逐个生成新文本单元

→ 最终转换为自然语言输出回复内容

三、关键模块运算逻辑详解

3.1 维度匹配基本原则

矩阵乘法有着固定运算规则，前序矩阵的列数必须和后序矩阵的行数相等，否则无法完成计算。词嵌入产出的向量维度，必须与Transformer内部所有权重矩阵的输入维度严格匹配。

常规模型设计中，嵌入维度等同于模型隐藏维度，天然适配网络运算规格；若使用外部向量数据，或是自定义特殊结构模型出现维度不一致时，需要增设投影层完成维度对齐转换。

3.2 Transformer结构与权重矩阵

单层Transformer模块并不是单一的二维权重矩阵，而是由多组可学习权重搭配固定运算组合而成，核心权重分为两大板块：

多头注意力模块包含查询权重、键值权重、取值权重、输出融合权重，各组矩阵规格统一；

前馈网络模块包含升维权重矩阵与降维权重矩阵。

模型训练习得的语言规则、常识知识都存储在权重矩阵当中，向量与矩阵开展乘法运算，即可实现文本语义特征的提取与优化。

3.3 向量与矩阵运算实例

设定简易运算条件：隐藏维度为4，采用单层Transformer模块，输入语句为猫吃鱼，分词后得到两个文本单元，采用单头注意力简化运算演示。

初始向量生成

通过词嵌入查表，获取两个四维向量，组合形成输入矩阵：

矩阵格式对应：2个文本单元，每个单元对应4维向量数据

注意力矩阵运算

设置简易对角权重矩阵：

通过矩阵乘法运算，生成查询、键值、取值特征向量，得到第一层中间状态向量，完成基础语义映射。

计算不同文本单元之间的关联程度，结合权重融合特征数据，形成携带上下文关联信息的全新向量。

前馈网络特征变换

遵循四倍维度扩张的通用规则，配置4×16升维矩阵与16×4降维矩阵。

向量先与升维权重相乘拓展维度，挖掘深层语义特征；经过非线性函数筛选无效信息后，再通过降维权重压缩维度，回归标准四维规格，更新中间状态向量。

残差连接与归一化处理

将原始输入向量和运算后的特征向量叠加融合，统一规整数值区间，保障数据稳定性：

$'_' allowed only in math mode Out=\text{LayerNorm}(X+\text{FFN_State})$

处理后的向量即为单层模块最终输出数据，可直接作为下一层网络的输入内容。

多层网络流转逻辑

多层模块堆叠运行时，上一层输出的中间状态向量直接进入下一层重复整套运算流程。每一层都会不断更新向量内部数值，循序渐进加深模型对文本内容的理解程度。

3.4 常见认知误区

一层Transformer无法等同于单个权重矩阵，它是集合注意力机制、前馈网络、归一化、残差结构的完整子网络，内部包含多组不同规格的权重矩阵；

模型层数对应模块堆叠数量，层数越多网络深度越高；

中间状态向量是层级运算的产物，全程保持固定维度，仅内部特征数据发生变化。

四、维度、层数、结构与参数量的关联关系

参数量是评判模型规模的核心指标，整体数值由Transformer结构设计、隐藏维度大小、模块堆叠层数共同决定，参数本质就是网络内所有可训练权重与偏置数据。

基础参数符号

：模型隐藏维度，统一的运算标准尺寸

：Transformer模块堆叠层数

：前馈网络扩张维度，常规采用四倍扩张设计

单层模块参数量计算

注意力板块包含四组同规格方阵，参数总量为；

前馈网络两组权重矩阵，参数总量为。

单层模块整体核心参数：

单层参数规模远大于单纯的维度相乘结果，由多组矩阵共同构成。

多层模块总参数量

按照层数线性累加单层参数，全部模块参数总和：

模型整体参数量

结合词嵌入层权重数据，常规模型输出层权重与嵌入权重共用，不重复统计，整体参数公式：

公式内代表模型词典容量大小。

参数变化规律

隐藏维度对参数量影响最大，参数随维度呈现平方级增长，维度小幅提升就会带来参数规模暴涨，同时模型语义表现力、硬件显存消耗也会同步增加；

堆叠层数与参数量呈线性增长关系，层数增加会提升网络深度，强化模型逻辑推理与长文本理解能力；

网络结构设计同样影响参数体量，前馈扩张倍数、注意力结构改动，都会改变单层参数基准数值。

实际模型参考

以经典70亿参数模型为例，配置32层网络结构、4096维隐藏维度，仅Transformer模块就拥有数十亿参数，叠加嵌入层参数后，整体规模匹配对应参数规格。

五、拓展认知要点

不同形式数据的分词差异

文字文本依靠专属分词器拆分单元，拆分结果具备可读语义；图像、音频数据不存在传统分词逻辑，依靠切块、编码、量化方式生成处理单元，仅适配统一网络运算格式，和文本分词原理完全不同。

Token与向量核心区别

Token只是文字对应的数字编号，仅起到标识作用，本身没有语义含义；向量是内容浓缩后的语义特征，依靠数值分布体现文字含义。实际应用中，统计长度、核算费用使用Token，语义检索、知识库问答场景使用向量数据。

模型数据独立性

不同大模型的词典规则、编号体系互不通用，相同文字在不同模型中对应的数字编号存在差异；各模型独立训练语义空间，训练得到的特征向量无法跨模型直接调用。

固定维度的表达原理

模型参数相当于搭建高维语义空间的框架，整体数量存在上限；向量作为空间内的特征坐标，依靠维度组合的多元化特性承载海量语义信息，有限规格可以表达近乎无穷的文字内容。

六、易混淆概念区分

Embedding 与 Prefill

词嵌入只是文本单元转向量的单一数据转换步骤；预填充是整合分词、嵌入、编码的完整输入处理流程，词嵌入属于预填充环节中的其中一步，二者不能等同看待。

各类向量区别

文本刚转换完成的数据为嵌入向量；进入网络参与运算后统称为隐藏向量；单层运算产出的阶段性数据为中间状态向量。三类数据本源一致，仅处于不同运算阶段。

维度规格区别

常规大模型嵌入维度与隐藏维度统一，保障运算顺畅；仅外部数据接入、定制化模型场景下会出现维度偏差，通过投影层即可完成对齐适配。

层数、维度与参数量

层数决定网络堆叠深度，维度决定单条信息的表达上限，结构设计划定单层参数基数，三项要素相互结合，最终计算得出模型整体参数量。

七、知识总结

文本经过分词处理拆解为基础单元，借助词嵌入转化为模型可运算的向量数据，维度规格统一是所有运算开展的基础条件。

预填充环节一次性完成输入内容编码，向量进入Transformer网络后，依靠多组权重矩阵执行矩阵运算，逐层生成中间特征向量，持续提炼语义信息。

网络层数决定模型深度，隐藏维度决定信息表达上限，结合内部结构设计，共同构成模型整体参数量，参数规模直接划定模型能力边界。

文字、图像、音频数据的分词处理逻辑存在差异，标识单元无语义，特征向量承载含义，不同模型的数据体系相互独立。

有限的参数框架依托维度组合实现海量语义表达，从文字输入到内容输出，全程依靠向量矩阵运算完成信息处理，这也是大模型理解语言、生成内容的底层本质。