@Sparky327 在 有朋友gemini 3.0手机端app灰度更新回来了!! 中发帖
非标题党,非“我有一个朋友”类型,一起测试测出来的。论坛里的svg测试,deepseek测试,哈基米测试全部通过。大家可以都试试用手机app,【不要】用canvas,直接问它问题。
贡献一个新benchmark。
Q: 炸蘑菇是高温杀菌,仓颉是字母,太极是巧克力,儒家是德意志,带小孩出门是六小龄童,拉屎是大肠杆菌,哥伦布发现新大陆是西游记,法棍是长寿面,后妈是伪娘,蜂蜜是花生酱,眼镜是士力架,避孕药是抗生素,青春痘是面疙瘩,生鱼片是死鱼片,咖啡是豆浆,长生不死是逃亡,茶是蔬菜汤,指南针是方向盘,蜀道是猕猴桃,你爸爸是爷爷,愚公移山是岳飞,生前是死前,冷笑话是冰可乐。请解释以上的所有双关语。
目前成绩大约正确率在18~20/23左右的是Gemini 3,LMArena和手机端都是这个成绩。作为对比,ChatGPT 5 Thinking High大概在13/23,Kimi K2 Thin...