Valerio Xiong 在 关于serverless gpu平台 冷启动的一个问题求答… 中发帖
最近在modal上部署了vllm,8b模型 每次冷启动耗时1分半-两分钟 这延迟也太高了 不敢想70b 会耗时多少…
有没有其它冷启动vllm耗时低的serverless平台
比如runpod 有佬友试过吗 冷启动一个模型 大约需要多久?