哈哈 (@stupidfish) 在 vllm并行推理为什么这么快? 中发帖我第一次接触到vllm框架

哈哈 (@stupidfish) 在 vllm并行推理为什么这么快? 中发帖

我第一次接触到vllm框架。我尝试将它用于多个用户，结果让我震惊。vllm框架在2 * 2080 Ti上运行DeepSeek-R1-Distill-Qwen-14B模型。 
单个用户响应速度为80 token/s，并行100个用户对应速度达到20 token/s。我对此感到非常难以置信。我一直以为并行数和生成速度是线性的吗，两个用户并行速度就是40t/s，四个就是20t/s，没想到结果是这样的。 
是什么导致了这个结果？ 
import asyncio
from datetime import datetime

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import...