@Debris 在 GLM-4.7-Flash来咯! 中发帖
感觉小模型里又多了一个可以玩玩的了。
Benchmark
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B
AIME 25
91.6
85.0
91.7
GPQA
75.2
73.4
71.5
LCB v6
64.0
66.0
61.0
HLE
14.4
9.8
10.9
SWE-bench Verified
59.2
22.0
34.0
τ²-Bench
79.5
49.0
47.7
BrowseComp
42.8
22.9
28.3