Aloxaf测试了一下大模型的「中文词汇量」 中发帖

前两天看到这个帖子「测测各位佬友的中文词汇量 」,题目做起来颇有难度,不知道 LLM 能得多少分。 
于是拷打 Cursor 写了个测试工具测了一下,结果如下:




模型
分数
正确率




qwen3-235b-a22b (thinking)
11457
49/50


qwen3-32b (thinking)
11457
49/50


gemini-2.5-pro (thinking)
11391
48/50


deepseek-r1 (thinking)
11324
48/50


grok-4 (thinking)
11191
46/50


claude-sonnet-4 (thinking)
11125
46/50


gemini-2.5-flash (thinking)
11125
45/50


qwq-32b (thinking)
10992
44/50


...