Jack (@D_ebwmdp) 在 国内AI大公司领导层或者说决策层知道员工提高“跑分”的行为吗 中发帖
国内的大模型,为啥普遍存在一种跑分高,但是实测效果不如openai和claude的现象呢?
我觉得还是ai领域的研究普遍存在的问题。员工为了获得更好的业绩,又或者为了拿到paper的发表,调模型也调了,发现效果不好怎么办呢?只好针对评测数据做针对性地优化,简而言之就是改数据,让模型训练的时候直接把这些评测题刷个遍。
这种现象,领导层和决策层不一定知道的。
就像很多科研界的大老板,不一定知道他们的学生偷偷修改数据,把测试数据塞到训练数据里,或者数据中得分差的就剔除掉。
但是,那又如何呢?员工们获得更好的升职加薪就好了,他们又不去使用这些大模型,他们只需要指标搞好就行了。