@ABcopilot 在 LiveBench的Gemini exp 1114排名结果出了中发帖不是很高啊，感觉进步明显的逻辑能力，在livebench的跑分中似乎还是一般，不过综合而言比4o评分是高一点了，只是比不过o1和claude 3.5 话说livebench的这个Language Comprehension（语言理解）能力评测似乎和我对文档总结能力的体验不太相符，我一直觉得长文本总结能力是Gemini 1.5 pro系列非常亮眼的强项 [图片]

@ABcopilot 在 LiveBench的Gemini exp 1114排名结果出了中发帖

不是很高啊，感觉进步明显的逻辑能力，在livebench的跑分中似乎还是一般，不过综合而言比4o评分是高一点了，只是比不过o1和claude 3.5 
话说livebench的这个Language Comprehension（语言理解）能力评测似乎和我对文档总结能力的体验不太相符，我一直觉得长文本总结能力是Gemini 1.5 pro系列非常亮眼的强项 
 [图片]