fenghenllama.cpp 搭建本地模型 中发帖

llama.cpp 搭建本地模型
使用llama.cpp 搭建本地模型。具体来说,就是在本地终端电脑跑上自己的模型。

能跑什么模型,多大的模型,要根据自己的电脑配置,配置越高,跑的越大;显卡+内存
为啥能跑? 把模型塞到内存中了,所以没显卡也能跑,但就是慢。
b的单位补充。1B = 10亿参数 。 通常看到模型8b,啥意思呢,就是模型参数是80亿;deepseek v4 pro ,1.6万亿参数,也就是1.6T; v4-pro 是284B
deepseek目前都是MoE 架构,就是比如dddddddd v4-pro 284b参数,每次chat不是全部都调用,而只是调用激活的参数,激活13B,就是130亿参数。 MOE是把所有的参数都放到内从中,因为显存太大了,一般8B *2 要16G 的显卡,那么284B要多大呢? 1.6T要多大呢?所以绝大多数都放在内存中不激活,激活的就是公共参数...