@hickeyhsu再也不相信中转站所谓满血pro号池了 中发帖

本人刚好重试LLM agent可靠性方面的科研工作,一直用GPT5.4mini、gpt5.5作为实验对象来研究可靠性评估方法,做了一套题库。之前在gpt-5.4-mini上测试1140次(114task10trial,即114题,每题重复测10次),成功率稳定在45%(每trail±3%)。 
前两天5x额度用完了,着急补实验,把站里最近推广最多的自称满血/纯血pro的3家富可敌国都冲了100块,结果同样的题库task,成功率只有5-15%。
我以为GPT这两天降智的缘故,先暂停了实验。等到今天我pro额度重置,我留了个心眼,把前20task5trail在官方pro5x\3家中转站(简称K/J/D)都跑了一遍,结果平均成功率如下
官方pro:50%,3家中转站分别25%,20%,23%,全都远低于官方pro。
这时候再看他们吹什么满血pro号池,只觉得好笑。