@dwqxq1 在 【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】 中发帖
字数思想钢印
省流版:只有O3 Deep research,Gemini和Cloud有真正的长文输出能力
定义
实际输出字数远低于官方公布的最大输出token数
什么叫长文:我定义为2k字以上的文字
有固定字数的长文:照抄/翻译
没有固定字数的长文:人为指定字数不算,提问,小说,写作,研究
长文的要求
理论最终输出字数多:大模型的模型输出一般只宣传输出字数,包含思考字数和最终输出字数。有两种情况
Ⓐ思考与最终字数固定分配:例如2.5flash思考固定24k,最终输出固定40k,即便不思考,最终输出字数也只能40k
Ⓑ思考与最终字数动态分类:思考用的少,最终字数就可以多,例如3.7-thinking动态分配64k,2.5pro动态分配64k
实际输出字数多
长文输入性能衰减慢:上下文越长,性能越差,但不同模型衰减速度不同,o3衰减最慢,在128k保持100%,2.5pro第...