NeoFii (@Fii) 在详解Transformer系列一输入表示与位置编码中发帖Transformer的输入表示与位置编码输入表示的整体流程Transformer模型将原始文本转换为密集向量表示的过程包含两个核心部分：词嵌入（Token Embedding）和位置编码（Positional Encoding）

NeoFii (@Fii) 在详解Transformer系列一输入表示与位置编码中发帖

Transformer的输入表示与位置编码
输入表示的整体流程
Transformer模型将原始文本转换为密集向量表示的过程包含两个核心部分：词嵌入（Token Embedding）和位置编码（Positional Encoding）。 
[流程图] 
Transformer中的特殊标记
[PAD]  # 填充标记：将不同长度的序列填充到相同长度（批处理必需）
[CLS] # 分类标记：通常放在序列开始位置，在分类任务中用于预测
[SEP] # 分割标记：标记句子结束或区分不同文本片段
[UNK]  # 未知标记：表示词汇表中不存在的词
[MASK]  # 掩码标记：在预训练中用于掩码语言建模任务

词嵌入：将tokens转换为向量
嵌入向量的实现原理

嵌入矩阵结构：

维度为[词汇表大小 × 嵌入维度]
例如，词汇表大小为30,000，嵌入维度为512时，矩阵形状为[30000, 51...