ITSource 每日分享 (@itguang)大模型中的 token 到底是什么?一篇文章告诉你 中发帖

Tokens (词元)
Tokens在 AI 模型处理文本时至关重要,它作为桥梁,将我们理解的单词转换为 AI 模型可处理的格式。这种转换分为两个阶段:把输入转换为 tokens,AI 根据 输入 tokens 生成输出 tokens,然后这些 tokens 在输出中再转换回自然语言输出信息。
上面过程涉及到一个关键流程:Tokenization
Tokenization: 即将文本分解为 Tokens 的过程,是人工智能模型理解和处理语言的基础。AI 模型采用这种 Tokenization 格式来理解并响应提示。
为了更好地理解 token ,可以将其视为单词的一部分。通常,一个token代表一个单词的四分之三左右。例如,莎士比亚的全部作品,总字数约为90万,将翻译成大约120万个词元。

试试 OpenAI Tokenizer 界面 ,看看单词是如何转换成代币的。

toke...