suke119 (@wangsr_bus) 在企业级部署实操： SGLang 多节点集群部署 Qwen 系列大模型中发帖theme: cyanosis目标比起Ollama的方便，有些时候高并发更重要，因此这篇文章将实现在两台电脑（双节点）上部署 SGLang（当然如果你还有多余的也可以加进来当节点），运行 Qwen2.5-7B-Instruct 模型，实现本地资源的充分利用

suke119 (@wangsr_bus) 在企业级部署实操： SGLang 多节点集群部署 Qwen 系列大模型中发帖

theme: cyanosis
目标
比起Ollama的方便，有些时候高并发更重要，因此这篇文章将实现在两台电脑（双节点）上部署 SGLang（当然如果你还有多余的也可以加进来当节点），运行 Qwen2.5-7B-Instruct 模型，实现本地资源的充分利用。 
硬件

节点 0：IP 192.168.0.12，1 个 英伟达显卡
节点 1：IP 192.168.0.13，1 个 英伟达显卡
总计：2 个 GPU

模型
Qwen2.5-7B-Instruct，FP16 下约需 14GB 显存，使用 --tp 2 后每 GPU 约 7GB （权重）+ 2-3GB （ KV 缓存）。 
网络
两节点通过以太网（ TCP ）通信，网络接口为 eno1 。 

这里根据自己电脑 ip addr 查询即可 

不量化
使用 FP16 精度以保留最大精度，显存占用较高，需优化配置。 
2. 前置...