SHENZHEN I/O 挂机玩家 (@RickoNoNo3) 在从“肆无忌惮”论LLM的中文Tokenizer 中发帖把下面这个问题放到Deepseek里问：成语“肆无忌惮”里有没有“无”字？结果会让人咋舌，甚至对于R1来讲thinking过程还有点搞笑： [image] [image] 这其实是大约半月前我在和AI聊没营养话题时偶然发现的

SHENZHEN I/O 挂机玩家 (@RickoNoNo3) 在从“肆无忌惮”论LLM的中文Tokenizer 中发帖

把下面这个问题放到Deepseek里问： 
成语“肆无忌惮”里有没有“无”字？

结果会让人咋舌，甚至对于R1来讲thinking过程还有点搞笑： 
 [image] 
 [image] 
这其实是大约半月前我在和AI聊没营养话题时偶然发现的。和当年的strawberry如出一辙。目前来看这是DS一家单独的问题，其他LLM（国内外七八个模型）都没有这样的现象。 
根据deepseek-tokenizer对成语的分词结果看，有很多反常的事情，甚至让人难以想象这玩意怎么能训练好： 
[{5DFFABF1-4054-49DA-9287-FB31E5DF8E1A}] 
[image] 
[image] 
qwen也这样做了一部分中文分词，但至少肆无忌惮不是： 
[{4458C19E-7BC3-4E7A-9C78-1612F8D15A06}] 
[{C2EBB8CA-DB53-4970-A572-8...