Grey (@capgrey) 在 LiveBench 成绩是否更好地反应 Gemini 2.5 Pro 并非高分低能? 中发帖
之前看到有人说有一些不良厂商把 Benchmark 测试集合拿去训练,所以会造成分数高,但是表现一般。也就是刷分的情况。
目前看来,Gemini 2.5 Pro 这个 LLM 几乎获得了佬友们的一致好评。很高兴看到 Gemini 的强大,因为我是 Google 粉,嘻嘻。
无论是 信息技术/大数据/云原生/人工智能,Google 团队都做了巨大贡献。
给我的感觉就是,一篇 Transformers, 踢开了通用人工智能的大门。