白芸汐 (@cloudwide) 在 [长文手敲] 我们需要什么样的模型——论模型智能的博弈 中发帖
内容简介
当人工智能从研究走向产业,我们真正需要的到底是哪一种“模型智能”?在现实世界中,模型能力早已超越单一维度的技术问题,转而在工程可落地性、制度合规性、以及真正智能能力之间形成了一种长期博弈。
我们究竟在追求什么样的“智能”?
很多人第一次接触人工智能模型的时候,都会陷入一种很朴素的判断方式:
谁的分数高,谁就更聪明。(不服来跑个分?跑不过我就去塞钱,还跑不过我就说你们用的不是满血模型)
于是各种排行榜就成了“模型世界的高考成绩单”。MMLU、HumanEval、GSM8K…每隔一段时间就会有一个新的榜单出现,随之而来的模型发布也往往只做一件事:
把上一代模型按在地上摩擦 3~5 个百分点。
如果你只看这些榜单,很容易产生一种错觉,模型正在稳定地、持续地、线性地变聪明。(我会稳稳地增长,然后用参数量接住你)
但只要稍微接触一点真实的工程系统,你很快就会发现一件事情:
...