@Sokeu转个Gemini3Pro一个强到离谱的评测 中发帖

转自AICodeKing,类似野榜的评测方式,有自己的一套prompt,每个AI都会测一遍. 
不废话直接上结果:
[image]
需要注意的是, 其代码测试领先4.5的幅度并不巨大, 但是数学和逻辑测试题断崖领先拿了满分.
另外叠甲的部分是,Google并不总是会把A/B Test的东西端出来,而且经常在发布的时候降智.
贴几个Coding测试(对比Sonnet4.5和GLM4.6)


3D Floor Plan
[image]
对比GLM 4.6
[image]
对比Sonnet 4.5 (墙和地板没有对齐)
[image]


熊猫svg
[image]
对比GLM4.6
[image]
对比Sonnet 4.5
[image]


3D精灵球
[image]
对比GLM4.6
[image]
对比Sonnet 4.5 (没有按钮) ...