Earmer Carey (@earmer)小模型的文学任务评测 中发帖

小模型的定义是Out价格在10以下的模型们。 
任务:润色文段,但不是冗杂油腻,润色后的字数要求在一万字。
拉完了(用不了)

Grok 4.1 Fast:前500字Ok,500字向后就不说人话地缩句(沏茶细腻:滤、倒、拭。忆烫茶,挑战再起。试射弧线,远处绽微光。四人笑语,振翅预练。)
——大哥,我让你润色,没让你转换成文言!
MiniMax M2:大刀阔斧地改,调换顺序、破坏逻辑……没法用。

这俩难兄难弟的共同特点就是输出Token总数都在4000多,其它的输出至少7000,明显是有问题。

GLM 4.6:这位仁兄输出6200,我仔细一看,好家伙,原来除了第一段将「他抬起了头」改成了「他慢慢地抬起了头」之外,剩下的段落一字未改,纯纯直接复制。

能用

GPT 5.1:这东西以10的上限价格进到这个组内这个分数简直是丢人;不过其实效果很可以,放到这个档次的主要原因是GPT味道太...