@hickeyhsu 在再也不相信中转站所谓满血pro号池了中发帖本人刚好重试LLM agent可靠性方面的科研工作，一直用GPT5.4mini、gpt5.5作为实验对象来研究可靠性评估方法，做了一套题库

@hickeyhsu 在再也不相信中转站所谓满血pro号池了中发帖

本人刚好重试LLM agent可靠性方面的科研工作，一直用GPT5.4mini、gpt5.5作为实验对象来研究可靠性评估方法，做了一套题库。之前在gpt-5.4-mini上测试1140次（114task10trial，即114题，每题重复测10次），成功率稳定在45%（每trail±3%）。 
前两天5x额度用完了，着急补实验，把站里最近推广最多的自称满血/纯血pro的3家富可敌国都冲了100块，结果同样的题库task，成功率只有5-15%。 
我以为GPT这两天降智的缘故，先暂停了实验。等到今天我pro额度重置，我留了个心眼，把前20task5trail在官方pro5x\3家中转站（简称K/J/D）都跑了一遍，结果平均成功率如下 
官方pro：50%，3家中转站分别25%，20%，23%，全都远低于官方pro。 
这时候再看他们吹什么满血pro号池，只觉得好笑。