SHENZHEN I/O 挂机玩家 (@RickoNoNo3) 在 从“肆无忌惮”论LLM的中文Tokenizer 中发帖
把下面这个问题放到Deepseek里问:
成语“肆无忌惮”里有没有“无”字?
结果会让人咋舌,甚至对于R1来讲thinking过程还有点搞笑:
[image]
[image]
这其实是大约半月前我在和AI聊没营养话题时偶然发现的。和当年的strawberry如出一辙。目前来看这是DS一家单独的问题,其他LLM(国内外七八个模型)都没有这样的现象。
根据deepseek-tokenizer对成语的分词结果看,有很多反常的事情,甚至让人难以想象这玩意怎么能训练好:
[{5DFFABF1-4054-49DA-9287-FB31E5DF8E1A}]
[image]
[image]
qwen也这样做了一部分中文分词,但至少肆无忌惮不是:
[{4458C19E-7BC3-4E7A-9C78-1612F8D15A06}]
[{C2EBB8CA-DB53-4970-A572-8...