Earmer Carey (@earmer) 在 小模型的文学任务评测 中发帖
小模型的定义是Out价格在10以下的模型们。
任务:润色文段,但不是冗杂油腻,润色后的字数要求在一万字。
拉完了(用不了)
Grok 4.1 Fast:前500字Ok,500字向后就不说人话地缩句(沏茶细腻:滤、倒、拭。忆烫茶,挑战再起。试射弧线,远处绽微光。四人笑语,振翅预练。)
——大哥,我让你润色,没让你转换成文言!
MiniMax M2:大刀阔斧地改,调换顺序、破坏逻辑……没法用。
这俩难兄难弟的共同特点就是输出Token总数都在4000多,其它的输出至少7000,明显是有问题。
GLM 4.6:这位仁兄输出6200,我仔细一看,好家伙,原来除了第一段将「他抬起了头」改成了「他慢慢地抬起了头」之外,剩下的段落一字未改,纯纯直接复制。
能用
GPT 5.1:这东西以10的上限价格进到这个组内这个分数简直是丢人;不过其实效果很可以,放到这个档次的主要原因是GPT味道太...