木子不是木子狸 (@Muzilee) 在 【木子狸的随机思考】02 洗车该不该开车 & 你是什么模型 中发帖
最近两个话题很火,一个是“GLM你到底是什么模型”,一个是“离洗车店50米该开车还是走路”。
在我看来它们其实都在问同一个问题:我们验证的是 AI 语言的流畅,还是我们心中所想的约束。
AI 会生成很多“像正确答案”的文本,在我们没有注意的时候将事实替换为概率可能。
先说“模型是谁”这个问题,很多人会说没必要,反正都是概率预测。
这话在简单问答,聊天里是可以忽略的,但在工程实践中是不够用的。因为我们是在和一个有能力边界的具体系统交互,身份回答如果不稳定,意味着概念边界不稳定。
边界不稳定就会失去信任:我们不知道这次该用哪套预期去评估它输出,不知道失败是能力问题、上下文问题还是调度问题,最后就只能靠体感开发。
再说“洗车50米该走路还是开车”,这个好笑的地方也暴露了模型的短板:它很容易关注于“50米很近”这个局部统计特征,却忽略“洗车的对象必须是车”这个约束,于是文本上合理,逻辑...