KXG 在 关于如何判定 deepseek 系列模型 中发帖
从“给主人留下些什么吧”作为灵感来源,我们可以从 deepseek-v3-tokenizer 入手,按照长度从高到低排序后,我找到了这些字符串:
subscriptsuperscript
superscriptsubscript
.\({}^{
\({}^{-
)\({}_{
由于这些字符串的长度长、出现频率不高,所以如果让 deepseek 解释或重复,他们一般答不对,而其他模型,这种字符串不会被解析为单一 token,所以能答对,可以尝试一下
事已至此,先吃饭吧,吃完饭再看看 tokenizer 的字符串