shaunlee 在关于4090 运行DeepseekR1-32B推理速度的疑问中发帖公司想部署一个本地的DS，主要想满足并发的需求，看了下个别资料显示4090跑32B在27token/s，想请教下大佬们：单个对话27t/s，如果是多对话并行推理，4090的总推理速度是就是这个27t/s，还是会更高4090没有Nvlink，使用张量并行的框架，双卡4090推理的速度性能损失在多少如果是有nvlink的3090或者A10这种显卡，是否多卡并联推理的速度损耗是多少

shaunlee 在关于4090 运行DeepseekR1-32B推理速度的疑问中发帖

公司想部署一个本地的DS，主要想满足并发的需求，看了下个别资料显示4090跑32B在27token/s，想请教下大佬们： 

单个对话27t/s，如果是多对话并行推理，4090的总推理速度是就是这个27t/s，还是会更高
4090没有Nvlink，使用张量并行的框架，双卡4090推理的速度性能损失在多少
如果是有nvlink的3090或者A10这种显卡，是否多卡并联推理的速度损耗是多少。 
希望有大佬指导一下，目前是期望能满足每秒20个对话，平均每个对话能满足10token/s的样子