@Debris 在 GLM-4.7-Flash来咯！中发帖感觉小模型里又多了一个可以玩玩的了

@Debris 在 GLM-4.7-Flash来咯！中发帖

感觉小模型里又多了一个可以玩玩的了。 




Benchmark
GLM-4.7-Flash
Qwen3-30B-A3B-Thinking-2507
GPT-OSS-20B




AIME 25
91.6
85.0
91.7


GPQA
75.2
73.4
71.5


LCB v6
64.0
66.0
61.0


HLE
14.4
9.8
10.9


SWE-bench Verified
59.2
22.0
34.0


τ²-Bench
79.5
49.0
47.7


BrowseComp
42.8
22.9
28.3