@rholin 在基于N卡vllm本地部署模型升级及踩坑实录中发帖昨天帮甲方升级了一下本地的老模型,因为本人并不是从事运维工作,只是临时补坑,还是浪费了点时间.现在回头做个梳理,希望佬友们在用得到的时候也有个参考(感觉都比较基础,专业的大佬可以跳过不看)模型下载:国内环境推荐直接使用modelscope下载,如果是内网环境的话,可以下载完再上传到服务器.这里重点关注2个地方模型选择一般来说我们首先考虑显存大小,先本地使用nvidia-smi,查看本机显存非量化模型可以有个简单的公式:显存 ≈ 参数量 × 2 ,然后基本上要留1/4以上余量提供给上下文kv cache,当然你如果已经安装完发现显存不够,可以通过量化参数–quantization降低显存要求 PS.这台服务器真让人流口水啊,也不用担心装不下的问题 [image-20260602160032956] 模型对应的配置要求: 注意仔细阅读模型的介绍页会有推荐的...

@rholin 在基于N卡vllm本地部署模型升级及踩坑实录中发帖

昨天帮甲方升级了一下本地的老模型,因为本人并不是从事运维工作,只是临时补坑,还是浪费了点时间.现在回头做个梳理,希望佬友们在用得到的时候也有个参考(感觉都比较基础,专业的大佬可以跳过不看)
模型下载:
国内环境推荐直接使用modelscope下载,如果是内网环境的话,可以下载完再上传到服务器.这里重点关注2个地方 


模型选择 
一般来说我们首先考虑显存大小,先本地使用nvidia-smi,查看本机显存 
非量化模型可以有个简单的公式:显存 ≈ 参数量 × 2 ,然后基本上要留1/4以上余量提供给上下文kv cache,当然你如果已经安装完发现显存不够,可以通过量化参数–quantization降低显存要求 
PS.这台服务器真让人流口水啊,也不用担心装不下的问题 
 [image-20260602160032956] 


模型对应的配置要求: 
注意仔细阅读模型的介绍页 
会有推荐的...