Aloxaf 在 测试了一下大模型的「中文词汇量」 中发帖
前两天看到这个帖子「测测各位佬友的中文词汇量 」,题目做起来颇有难度,不知道 LLM 能得多少分。
于是拷打 Cursor 写了个测试工具测了一下,结果如下:
模型
分数
正确率
qwen3-235b-a22b (thinking)
11457
49/50
qwen3-32b (thinking)
11457
49/50
gemini-2.5-pro (thinking)
11391
48/50
deepseek-r1 (thinking)
11324
48/50
grok-4 (thinking)
11191
46/50
claude-sonnet-4 (thinking)
11125
46/50
gemini-2.5-flash (thinking)
11125
45/50
qwq-32b (thinking)
10992
44/50
...