@HCPTangHY70K-100%?! Gemini 3 flash临时捞针成绩! 中发帖

大模型竞技场上新了Gemini 3 flash系列skyhawk 大模型竞技场新增谷歌模型seahawk和skyhawk - 前沿快讯 - LINUX DO 
由于竞技场现在堵死了全部反代渠道,所以我只能手动在battle中捕捉并进行了基础的捞针测试。由于竞技场单次输入上限为110K,所以只测了前半段的成绩。
原项目地址: Lianues/LLM-NeedleInAHaystack
先说结论,重大进步
(与其说重大进步,不如说这才是该有的成绩)
70K内100%,比3pro巨大进步,但是值得注意的是,总体趋势和2.5pro高度相似
[image]
我们合理怀疑3flash其实是2.5pro家族的后续成员,采用了3系列的后训练方法。
从社区实际使用体验来讲,和之前可能为2.5-pro-latest的wolfstride模型相近
具体数据如下
70k 100%
[image...