suke119 (@wangsr_bus) 在 企业级部署实操: SGLang 多节点集群部署 Qwen 系列大模型 中发帖
theme: cyanosis
目标
比起Ollama的方便,有些时候高并发更重要,因此这篇文章将实现在两台电脑(双节点)上部署 SGLang(当然如果你还有多余的也可以加进来当节点),运行 Qwen2.5-7B-Instruct 模型,实现本地资源的充分利用。
硬件
节点 0:IP 192.168.0.12,1 个 英伟达显卡
节点 1:IP 192.168.0.13,1 个 英伟达显卡
总计:2 个 GPU
模型
Qwen2.5-7B-Instruct,FP16 下约需 14GB 显存,使用 --tp 2 后每 GPU 约 7GB (权重)+ 2-3GB ( KV 缓存)。
网络
两节点通过以太网( TCP )通信,网络接口为 eno1 。
这里根据自己电脑 ip addr 查询即可
不量化
使用 FP16 精度以保留最大精度,显存占用较高,需优化配置。
2. 前置...