kumo. (@EFL) 在我对 DeepSeek「极」字 bug 的看法中发帖昨天有佬友发现了这个问题，我的看法是这样的：受语料库污染，模型容易在自由度较高的上下文中输出 “极” 对应的 token，因为该 token 的语义被小广告等语料扭曲为了一种容易随机出现的字符（毕竟这个字比较吸睛）而不是训练为极本身的含义模型一旦输出“极”这个 token，其注意力就会被分散，开始输出“极”有关的更多 token 如各类小广告，也就是说那些污染输出的内容是与这个token伴随性输出的所以解决方案很简单，就是让 DeepSeek 支持 OpenAI API 中的 logit_bias 参数或者直接在模型部署时设置这个参数，将“极”对应的 token 先屏蔽掉，或者调成 -80 等较低的值，就可以修复这个问题了

kumo. (@EFL) 在我对 DeepSeek「极」字 bug 的看法中发帖

昨天有佬友发现了这个问题，我的看法是这样的： 

受语料库污染，模型容易在自由度较高的上下文中输出 “极” 对应的 token，因为该 token 的语义被小广告等语料扭曲为了一种容易随机出现的字符（毕竟这个字比较吸睛）而不是训练为极本身的含义
模型一旦输出“极”这个 token，其注意力就会被分散，开始输出“极”有关的更多 token 如各类小广告，也就是说那些污染输出的内容是与这个token伴随性输出的

所以解决方案很简单，就是让 DeepSeek 支持 OpenAI API 中的 logit_bias 参数或者直接在模型部署时设置这个参数，将“极”对应的 token 先屏蔽掉，或者调成 -80 等较低的值，就可以修复这个问题了。DeepSeek 官方 API 触发概率很低，大约也就是这个原理。 

tokenizer 序号和 token 的语义之间没有关系，token 语义是否...