calendar 在 [AI 应用层学习记录(一)] 中发帖
在序言里我说过,可以把 AI 简化成一个有输入输出的函数,把 AI 看作一个特殊的“CPU”。
LLM 是一个什么样的「CPU」?
传统的 CPU 执行的是确定性指令:你给它 1+1,它永远返回 2。
而 AI(或者准确一些,LLM) 这个「CPU」执行的是概率预测:你给它 1+1=,它预测下一个字大概率是 2。
作为应用开发者,我们不需要研究这个 CPU 内部的电路是怎么排列的,我们只需要搞清楚它的三个核心组件:
输入: 也就是你发给它的那段话。
内存: 也就是它一次能记住多少东西,即上下文。(姑且把内存和 CPU 算到一起吧……)
时钟频率/算力: 模型的大小(B 数 😂),决定了它思考的深度和速度。
这些是大家耳熟能详的概念了,但是重新定义、类比一番可能会减轻思考的压力~
瓶颈:昂贵且有限的“内存”
物理意义的昂贵 😂 快降价吧!
模型是固化的,训练出来以后就定死...