fenghen 在 llama.cpp 搭建本地模型中发帖llama.cpp 搭建本地模型使用llama.cpp 搭建本地模型

fenghen 在 llama.cpp 搭建本地模型中发帖

llama.cpp 搭建本地模型
使用llama.cpp 搭建本地模型。具体来说，就是在本地终端电脑跑上自己的模型。 

能跑什么模型，多大的模型，要根据自己的电脑配置，配置越高，跑的越大；显卡+内存
为啥能跑？ 把模型塞到内存中了，所以没显卡也能跑，但就是慢。
b的单位补充。1B = 10亿参数 。 通常看到模型8b,啥意思呢，就是模型参数是80亿；deepseek v4 pro ，1.6万亿参数，也就是1.6T； v4-pro 是284B
deepseek目前都是MoE 架构，就是比如dddddddd  v4-pro 284b参数，每次chat不是全部都调用，而只是调用激活的参数，激活13B，就是130亿参数。 MOE是把所有的参数都放到内从中，因为显存太大了，一般8B *2 要16G 的显卡，那么284B要多大呢？ 1.6T要多大呢？所以绝大多数都放在内存中不激活，激活的就是公共参数...