@huafeihua 在都是gpt-5.4 为什么差距这么大中发帖在claude code中使用群里各位大佬提供的公益站，接入的是gpt-5.4，同样都是gpt-5.4，不同公益站的能力有很大的区别测试题如下：在一个黑色的袋子里放有三种口味的糖果，每种糖果有两种不同的形状（圆形和五角星形，不同的形状靠手感可以分辨）

@huafeihua 在都是gpt-5.4 为什么差距这么大中发帖

在claude code中使用群里各位大佬提供的公益站，接入的是gpt-5.4，同样都是gpt-5.4，不同公益站的能力有很大的区别 
测试题如下： 
在一个黑色的袋子里放有三种口味的糖果，每种糖果有两种不同的形状（圆形和五角星形，不同的形状靠手感可以分辨）。现已知不同口
味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目，那么，最少取出多少个糖果才能保证手中同时拥有不同形
状的苹果味和桃子味的糖？（同时手中有圆形苹果味匹配五角星桃子味糖果，或者有圆形桃子味匹配五角星苹果味糖果都满足要求）

苹果味    桃子味    西瓜味
圆形    7    9    8
五角星形    7    6    4

有的公益站提供的gpt-5.4 ，可以回答正确，是21 
有的公益站提供的gpt-5.4，回答错误，回答的是 29 
这是什么原因呢，使用的claude code 的配...