kumo. (@EFL) 在 我对 DeepSeek「极」字 bug 的看法 中发帖
昨天有佬友发现了这个问题,我的看法是这样的:
受语料库污染,模型容易在自由度较高的上下文中输出 “极” 对应的 token,因为该 token 的语义被小广告等语料扭曲为了一种容易随机出现的字符(毕竟这个字比较吸睛)而不是训练为极本身的含义
模型一旦输出“极”这个 token,其注意力就会被分散,开始输出“极”有关的更多 token 如各类小广告,也就是说那些污染输出的内容是与这个token伴随性输出的
所以解决方案很简单,就是让 DeepSeek 支持 OpenAI API 中的 logit_bias 参数或者直接在模型部署时设置这个参数,将“极”对应的 token 先屏蔽掉,或者调成 -80 等较低的值,就可以修复这个问题了。DeepSeek 官方 API 触发概率很低,大约也就是这个原理。
tokenizer 序号和 token 的语义之间没有关系,token 语义是否...