福建松坂砂糖偶遇广东名菜糯米鸡香味强如怪物拼尽全力无法战胜 (@MatsuzakaSato) 在 解析token与transformer 中发帖
接:浅谈大语言模型的 Token
这篇文章已经从使用者的角度,很好地解释了token的计算方法和tokenizer的使用。接下来我将以开发的角度,对transformer,token,以及tokenization的概念进行一些补充与修正。
注意:此文侧重点在于解释模型运行与token输出的原理,对于API调用与成本核算的帮助可能十分有限。
从神经网络结构开始
在之前的文章中,我已经介绍了卷积神经网络(CNN)的核心算法,但是这并不是一个完整的神经网络。经典的卷积神经网络结构包括以下层:
输入层→卷积层→池化层→全连接层
例如,假设要对0-9十个数字的图片进行分类,则全连接层的输出维度通常要设置为10,与输出分类一一对应。最后通过Softmax层,程序就可以将输出转换为每个类别的概率,概率最高的类别即为预测结果。
从CNN到Transformer语言模型
理解了CNN的输出层...