哈哈 (@stupidfish) 在 vllm并行推理为什么这么快? 中发帖
我第一次接触到vllm框架。我尝试将它用于多个用户,结果让我震惊。vllm框架在2 * 2080 Ti上运行DeepSeek-R1-Distill-Qwen-14B模型。
单个用户响应速度为80 token/s,并行100个用户对应速度达到20 token/s。我对此感到非常难以置信。我一直以为并行数和生成速度是线性的吗,两个用户并行速度就是40t/s,四个就是20t/s,没想到结果是这样的。
是什么导致了这个结果?
import asyncio
from datetime import datetime
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import...