NeoFii (@Fii) 在 详解Transformer系列一 输入表示与位置编码 中发帖
Transformer的输入表示与位置编码
输入表示的整体流程
Transformer模型将原始文本转换为密集向量表示的过程包含两个核心部分:词嵌入(Token Embedding)和位置编码(Positional Encoding)。
[流程图]
Transformer中的特殊标记
[PAD] # 填充标记:将不同长度的序列填充到相同长度(批处理必需)
[CLS] # 分类标记:通常放在序列开始位置,在分类任务中用于预测
[SEP] # 分割标记:标记句子结束或区分不同文本片段
[UNK] # 未知标记:表示词汇表中不存在的词
[MASK] # 掩码标记:在预训练中用于掩码语言建模任务
词嵌入:将tokens转换为向量
嵌入向量的实现原理
嵌入矩阵结构:
维度为[词汇表大小 × 嵌入维度]
例如,词汇表大小为30,000,嵌入维度为512时,矩阵形状为[30000, 51...