@Jobs 在浅谈大语言模型的 Token 中发帖最近看到一些帖子在讨论大预言模型的 Token 计算，发现很多佬友不太了解这个 Token 是什么，应该如何正确理解 Token 的概念，所以开贴简单介绍一下个人的理解

@Jobs 在浅谈大语言模型的 Token 中发帖

最近看到一些帖子在讨论大预言模型的 Token 计算，发现很多佬友不太了解这个 Token 是什么，应该如何正确理解 Token 的概念，所以开贴简单介绍一下个人的理解。涉及概念有诸多简化，并不严谨，有错漏之处欢迎指正。 
TL;DR
Token 是大型语言模型处理文本的基本单位。不同模型采用不同的分词方式，计算时应根据模型选择相应的分词器。 
什么是 Token
Token 是大语言模型处理文本的基本单位。当我们将一段文字输入模型时，模型会先将其拆解成 Token 序列，然后通过这些序列进行预测。 
拆解的原因很简单。以英语为例，如果直接将文本拆成最基本的字母，对于训练模型来说非常低效。例如，单词“Hello”如果拆成字母，需要占用 H e l l o 五个“存储位置”；而直接作为一个整体，则只占用一个“位置”。这里的“位置”指的是模型的上下文长度。 
简单来说，模型在处理过程中有一个词...