@Sokeu 在转个Gemini3Pro一个强到离谱的评测中发帖转自AICodeKing,类似野榜的评测方式,有自己的一套prompt,每个AI都会测一遍. 不废话直接上结果: [image] 需要注意的是, 其代码测试领先4.5的幅度并不巨大, 但是数学和逻辑测试题断崖领先拿了满分. 另外叠甲的部分是,Google并不总是会把A/B Test的东西端出来,而且经常在发布的时候降智. 贴几个Coding测试(对比Sonnet4.5和GLM4.6) 3D Floor Plan [image] 对比GLM 4.6 [image] 对比Sonnet 4.5 (墙和地板没有对齐) [image] 熊猫svg [image] 对比GLM4.6 [image] 对比Sonnet 4.5 [image] 3D精灵球 [image] 对比GLM4.6 [image] 对比Sonnet 4.5 (没有按钮) ...

@Sokeu 在转个Gemini3Pro一个强到离谱的评测中发帖

转自AICodeKing,类似野榜的评测方式,有自己的一套prompt,每个AI都会测一遍. 
不废话直接上结果: 
 [image] 
需要注意的是, 其代码测试领先4.5的幅度并不巨大, 但是数学和逻辑测试题断崖领先拿了满分. 
另外叠甲的部分是,Google并不总是会把A/B Test的东西端出来,而且经常在发布的时候降智. 
贴几个Coding测试(对比Sonnet4.5和GLM4.6) 


3D Floor Plan 
 [image] 
对比GLM 4.6 
[image] 
对比Sonnet 4.5 (墙和地板没有对齐) 
[image] 


熊猫svg 
 [image] 
对比GLM4.6 
[image] 
对比Sonnet 4.5 
[image] 


3D精灵球 
 [image] 
对比GLM4.6 
[image] 
对比Sonnet 4.5 (没有按钮) ...