Jack (@D_ebwmdp) 在国内AI大公司领导层或者说决策层知道员工提高“跑分”的行为吗中发帖国内的大模型，为啥普遍存在一种跑分高，但是实测效果不如openai和claude的现象呢？我觉得还是ai领域的研究普遍存在的问题

Jack (@D_ebwmdp) 在国内AI大公司领导层或者说决策层知道员工提高“跑分”的行为吗中发帖

国内的大模型，为啥普遍存在一种跑分高，但是实测效果不如openai和claude的现象呢？ 
我觉得还是ai领域的研究普遍存在的问题。员工为了获得更好的业绩，又或者为了拿到paper的发表，调模型也调了，发现效果不好怎么办呢？只好针对评测数据做针对性地优化，简而言之就是改数据，让模型训练的时候直接把这些评测题刷个遍。 
这种现象，领导层和决策层不一定知道的。 
就像很多科研界的大老板，不一定知道他们的学生偷偷修改数据，把测试数据塞到训练数据里，或者数据中得分差的就剔除掉。 
但是，那又如何呢？员工们获得更好的升职加薪就好了，他们又不去使用这些大模型，他们只需要指标搞好就行了。