shaunlee关于4090 运行DeepseekR1-32B推理速度的疑问 中发帖

公司想部署一个本地的DS,主要想满足并发的需求,看了下个别资料显示4090跑32B在27token/s,想请教下大佬们: 

单个对话27t/s,如果是多对话并行推理,4090的总推理速度是就是这个27t/s,还是会更高
4090没有Nvlink,使用张量并行的框架,双卡4090推理的速度性能损失在多少
如果是有nvlink的3090或者A10这种显卡,是否多卡并联推理的速度损耗是多少。
希望有大佬指导一下,目前是期望能满足每秒20个对话,平均每个对话能满足10token/s的样子