@Jobs 在 浅谈大语言模型的 Token 中发帖
最近看到一些帖子在讨论大预言模型的 Token 计算,发现很多佬友不太了解这个 Token 是什么,应该如何正确理解 Token 的概念,所以开贴简单介绍一下个人的理解。涉及概念有诸多简化,并不严谨,有错漏之处欢迎指正。
TL;DR
Token 是大型语言模型处理文本的基本单位。不同模型采用不同的分词方式,计算时应根据模型选择相应的分词器。
什么是 Token
Token 是大语言模型处理文本的基本单位。当我们将一段文字输入模型时,模型会先将其拆解成 Token 序列,然后通过这些序列进行预测。
拆解的原因很简单。以英语为例,如果直接将文本拆成最基本的字母,对于训练模型来说非常低效。例如,单词“Hello”如果拆成字母,需要占用 H e l l o 五个“存储位置”;而直接作为一个整体,则只占用一个“位置”。这里的“位置”指的是模型的上下文长度。
简单来说,模型在处理过程中有一个词...