白芸汐 (@cloudwide) 在 [长文手敲] 我们需要什么样的模型——论模型智能的博弈中发帖内容简介当人工智能从研究走向产业，我们真正需要的到底是哪一种“模型智能”？在现实世界中，模型能力早已超越单一维度的技术问题，转而在工程可落地性、制度合规性、以及真正智能能力之间形成了一种长期博弈

白芸汐 (@cloudwide) 在 [长文手敲] 我们需要什么样的模型——论模型智能的博弈中发帖

内容简介
当人工智能从研究走向产业，我们真正需要的到底是哪一种“模型智能”？在现实世界中，模型能力早已超越单一维度的技术问题，转而在工程可落地性、制度合规性、以及真正智能能力之间形成了一种长期博弈。 
我们究竟在追求什么样的“智能”？
很多人第一次接触人工智能模型的时候，都会陷入一种很朴素的判断方式： 
谁的分数高，谁就更聪明。（不服来跑个分？跑不过我就去塞钱，还跑不过我就说你们用的不是满血模型） 
于是各种排行榜就成了“模型世界的高考成绩单”。MMLU、HumanEval、GSM8K…每隔一段时间就会有一个新的榜单出现，随之而来的模型发布也往往只做一件事： 

把上一代模型按在地上摩擦 3～5 个百分点。 

如果你只看这些榜单，很容易产生一种错觉，模型正在稳定地、持续地、线性地变聪明。（我会稳稳地增长，然后用参数量接住你） 
但只要稍微接触一点真实的工程系统，你很快就会发现一件事情： 
...