日常使用大模型聊天、问答、生成内容时,背后藏着一套完整固定的数据流转逻辑。本文将分词器、词嵌入、隐藏向量、Transformer架构、Prefill预填充、模型层数、维度、参数量等核心知识点串联汇总,用通俗逻辑结合运算关系拆解底层原理,搭建完整的大模型基础认知体系。
一、核心基础名词概念汇总
Tokenizer 分词器
大模型文本处理的第一道入口,模型无法直接识别完整语句,需要按照内置词典规则,将文本切割为最小处理单元。拆分单元可以是单字、词语、子词或是标点符号,只有完成分词得到单元序列,才能开展后续向量化计算。
Token
文本经过分词处理后得到的最小语义单元,每一个单元都会被分配专属数字编号。编号本身不承载语义,仅作为唯一身份标识。日常统计上下文长度、计算调用计费,均以Token作为统计单位。
Embedding 词嵌入
将离散的文字单元,转化为计算机可识别运算的多维数字向量的过程。语义含义相近的内容,转化后的向量数值分布也会更加贴合;语义差异较大的内容,向量数值距离会明显拉开。在主流原生大模型中,词嵌入输出的向量维度,和模型内部隐藏维度保持一致。
向量、隐藏向量、中间状态向量
向量是有序数字组成的数组,是模型唯一的运算数据形式。
隐藏向量指代经过词嵌入转换后,在网络内部流转计算的向量数据,这类数据无法被人类直接解读,仅用于特征运算处理,不会直接对外输出。
中间状态向量是向量经过单层网络权重运算、特征变换后产出的阶段性数据,记录当前层级提炼后的语义信息,会持续传递至下一层网络参与计算。
当下绝大多数主流大模型的核心神经网络架构,常见的通用大模型均基于该结构研发搭建。整体由多组结构一致的模块堆叠构成,依靠自注意力机制捕捉语句上下文关联关系,搭配前馈网络结构,完成语义理解、逻辑推导与文本生成工作。
Prefill 预填充阶段
用户提交完整提问内容后,模型一次性对整段输入内容执行分词、词嵌入、编码运算的全过程。该流程仅执行一次,运算结束后会留存上下文状态信息,后续逐字生成回复时不会重复运算,是提升模型推理响应速度的关键环节。
模型隐藏维度
单个向量包含的数字数量,也是模型全程运算统一的标准尺寸。网络内所有权重矩阵规格、向量传输、矩阵运算,都以该维度为基准,同一模型的向量维度固定不变。
模型层数
指代模型内部堆叠的Transformer模块数量,行业标注的32层、96层模型,对应数量的模块层层叠加,层数越高代表网络结构越深。
模型参数量
网络中所有可学习权重矩阵、偏置参数的总和,涵盖词嵌入层参数以及每一层Transformer模块的全部权重数据。参数量的规模大小,直接决定模型的知识储备上限与语义理解能力。
词库
分词器对应的检索词典容量,决定模型能够识别的文字单元范围,常见词典规模分为三万、五万、十万、十五万词元等不同规格。
二、完整数据流转链路
自然语言文本 → 分词拆分得到基础单元 → 词嵌入转换为标准维度向量
→ 整段向量进入预填充环节完成全局编码
→ 向量送入多层堆叠的Transformer网络
→ 依托权重矩阵完成注意力计算与特征提取,逐层生成中间状态向量
→ 复用已编码的上下文信息,逐个生成新文本单元
→ 最终转换为自然语言输出回复内容
三、关键模块运算逻辑详解
3.1 维度匹配基本原则
矩阵乘法有着固定运算规则,前序矩阵的列数必须和后序矩阵的行数相等,否则无法完成计算。词嵌入产出的向量维度,必须与Transformer内部所有权重矩阵的输入维度严格匹配。
常规模型设计中,嵌入维度等同于模型隐藏维度,天然适配网络运算规格;若使用外部向量数据,或是自定义特殊结构模型出现维度不一致时,需要增设投影层完成维度对齐转换。
单层Transformer模块并不是单一的二维权重矩阵,而是由多组可学习权重搭配固定运算组合而成,核心权重分为两大板块:
多头注意力模块包含查询权重、键值权重、取值权重、输出融合权重,各组矩阵规格统一;
前馈网络模块包含升维权重矩阵与降维权重矩阵。
模型训练习得的语言规则、常识知识都存储在权重矩阵当中,向量与矩阵开展乘法运算,即可实现文本语义特征的提取与优化。
3.3 向量与矩阵运算实例
设定简易运算条件:隐藏维度为4,采用单层Transformer模块,输入语句为猫 吃鱼,分词后得到两个文本单元,采用单头注意力简化运算演示。
初始向量生成
通过词嵌入查表,获取两个四维向量,组合形成输入矩阵:
$$
X=
\begin{bmatrix}
1 & 2 & 3 & 4 \
2 & 1 & 4 & 3
\end{bmatrix}
$$
矩阵格式对应:2个文本单元,每个单元对应4维向量数据
注意力矩阵运算
设置简易对角权重矩阵:
$$
W_Q=W_K=W_V=
\begin{bmatrix}
0.1 & 0 & 0 & 0 \
0 & 0.2 & 0 & 0 \
0 & 0 & 0.3 & 0 \
0 & 0 & 0 & 0.4
\end{bmatrix}
$$
通过矩阵乘法运算,生成查询、键值、取值特征向量,得到第一层中间状态向量,完成基础语义映射。
计算不同文本单元之间的关联程度,结合权重融合特征数据,形成携带上下文关联信息的全新向量。
前馈网络特征变换
遵循四倍维度扩张的通用规则,配置4×16升维矩阵与16×4降维矩阵。
向量先与升维权重相乘拓展维度,挖掘深层语义特征;经过非线性函数筛选无效信息后,再通过降维权重压缩维度,回归标准四维规格,更新中间状态向量。
残差连接与归一化处理
将原始输入向量和运算后的特征向量叠加融合,统一规整数值区间,保障数据稳定性:
$$
Out=\text{LayerNorm}(X+\text{FFN_State})
$$
处理后的向量即为单层模块最终输出数据,可直接作为下一层网络的输入内容。
多层网络流转逻辑
多层模块堆叠运行时,上一层输出的中间状态向量直接进入下一层重复整套运算流程。每一层都会不断更新向量内部数值,循序渐进加深模型对文本内容的理解程度。
3.4 常见认知误区
一层Transformer无法等同于单个权重矩阵,它是集合注意力机制、前馈网络、归一化、残差结构的完整子网络,内部包含多组不同规格的权重矩阵;
模型层数对应模块堆叠数量,层数越多网络深度越高;
中间状态向量是层级运算的产物,全程保持固定维度,仅内部特征数据发生变化。
四、维度、层数、结构与参数量的关联关系
参数量是评判模型规模的核心指标,整体数值由Transformer结构设计、隐藏维度大小、模块堆叠层数共同决定,参数本质就是网络内所有可训练权重与偏置数据。
基础参数符号
$d$:模型隐藏维度,统一的运算标准尺寸
$L$:Transformer模块堆叠层数
$d_{ff}$:前馈网络扩张维度,常规采用四倍扩张设计
单层模块参数量计算
注意力板块包含四组同规格方阵,参数总量为$4d^2$;
前馈网络两组权重矩阵,参数总量为$8d^2$。
单层模块整体核心参数:
$$
P_{\text{layer}}=4d^2+8d^2=12d^2
$$
单层参数规模远大于单纯的维度相乘结果,由多组矩阵共同构成。
多层模块总参数量
按照层数线性累加单层参数,全部模块参数总和:
$$
P_{\text{trans}}=L \times 12d^2
$$
模型整体参数量
结合词嵌入层权重数据,常规模型输出层权重与嵌入权重共用,不重复统计,整体参数公式:
$$
P_{\text{total}} \approx 12Ld^2 + V\cdot d
$$
公式内$V$代表模型词典容量大小。
参数变化规律
隐藏维度对参数量影响最大,参数随维度呈现平方级增长,维度小幅提升就会带来参数规模暴涨,同时模型语义表现力、硬件显存消耗也会同步增加;
堆叠层数与参数量呈线性增长关系,层数增加会提升网络深度,强化模型逻辑推理与长文本理解能力;
网络结构设计同样影响参数体量,前馈扩张倍数、注意力结构改动,都会改变单层参数基准数值。
实际模型参考
以经典70亿参数模型为例,配置32层网络结构、4096维隐藏维度,仅Transformer模块就拥有数十亿参数,叠加嵌入层参数后,整体规模匹配对应参数规格。
五、拓展认知要点
不同形式数据的分词差异
文字文本依靠专属分词器拆分单元,拆分结果具备可读语义;图像、音频数据不存在传统分词逻辑,依靠切块、编码、量化方式生成处理单元,仅适配统一网络运算格式,和文本分词原理完全不同。
Token与向量核心区别
Token只是文字对应的数字编号,仅起到标识作用,本身没有语义含义;向量是内容浓缩后的语义特征,依靠数值分布体现文字含义。实际应用中,统计长度、核算费用使用Token,语义检索、知识库问答场景使用向量数据。
模型数据独立性
不同大模型的词典规则、编号体系互不通用,相同文字在不同模型中对应的数字编号存在差异;各模型独立训练语义空间,训练得到的特征向量无法跨模型直接调用。
固定维度的表达原理
模型参数相当于搭建高维语义空间的框架,整体数量存在上限;向量作为空间内的特征坐标,依靠维度组合的多元化特性承载海量语义信息,有限规格可以表达近乎无穷的文字内容。
六、易混淆概念区分
Embedding 与 Prefill
词嵌入只是文本单元转向量的单一数据转换步骤;预填充是整合分词、嵌入、编码的完整输入处理流程,词嵌入属于预填充环节中的其中一步,二者不能等同看待。
各类向量区别
文本刚转换完成的数据为嵌入向量;进入网络参与运算后统称为隐藏向量;单层运算产出的阶段性数据为中间状态向量。三类数据本源一致,仅处于不同运算阶段。
维度规格区别
常规大模型嵌入维度与隐藏维度统一,保障运算顺畅;仅外部数据接入、定制化模型场景下会出现维度偏差,通过投影层即可完成对齐适配。
层数、维度与参数量
层数决定网络堆叠深度,维度决定单条信息的表达上限,结构设计划定单层参数基数,三项要素相互结合,最终计算得出模型整体参数量。
七、知识总结
文本经过分词处理拆解为基础单元,借助词嵌入转化为模型可运算的向量数据,维度规格统一是所有运算开展的基础条件。
预填充环节一次性完成输入内容编码,向量进入Transformer网络后,依靠多组权重矩阵执行矩阵运算,逐层生成中间特征向量,持续提炼语义信息。
网络层数决定模型深度,隐藏维度决定信息表达上限,结合内部结构设计,共同构成模型整体参数量,参数规模直接划定模型能力边界。
文字、图像、音频数据的分词处理逻辑存在差异,标识单元无语义,特征向量承载含义,不同模型的数据体系相互独立。
有限的参数框架依托维度组合实现海量语义表达,从文字输入到内容输出,全程依靠向量矩阵运算完成信息处理,这也是大模型理解语言、生成内容的底层本质。