@ABcopilot 在 LiveBench的Gemini exp 1114排名结果出了 中发帖
不是很高啊,感觉进步明显的逻辑能力,在livebench的跑分中似乎还是一般,不过综合而言比4o评分是高一点了,只是比不过o1和claude 3.5
话说livebench的这个Language Comprehension(语言理解)能力评测似乎和我对文档总结能力的体验不太相符,我一直觉得长文本总结能力是Gemini 1.5 pro系列非常亮眼的强项
[图片]