@rholin 在 基于N卡vllm本地部署模型升级及踩坑实录 中发帖
昨天帮甲方升级了一下本地的老模型,因为本人并不是从事运维工作,只是临时补坑,还是浪费了点时间.现在回头做个梳理,希望佬友们在用得到的时候也有个参考(感觉都比较基础,专业的大佬可以跳过不看)
模型下载:
国内环境推荐直接使用modelscope下载,如果是内网环境的话,可以下载完再上传到服务器.这里重点关注2个地方
模型选择
一般来说我们首先考虑显存大小,先本地使用nvidia-smi,查看本机显存
非量化模型可以有个简单的公式:显存 ≈ 参数量 × 2 ,然后基本上要留1/4以上余量提供给上下文kv cache,当然你如果已经安装完发现显存不够,可以通过量化参数–quantization降低显存要求
PS.这台服务器真让人流口水啊,也不用担心装不下的问题
[image-20260602160032956]
模型对应的配置要求:
注意仔细阅读模型的介绍页
会有推荐的...