He (@nukedolby) 在 请教佬友们,生产环境大模型有什么比较好的监控、健康检查、自动启动方案? 中发帖
生产环境用xinference跑的qwen2.5-vl-32b模型,模型(请求)卡死了都不知道 😂 (表现为GPU-Util 100%,但是GPU功率稳定在七十多W,此时请求进不来,也没有响应),就很头疼。
为了确保服务的健壮性和高可用性,请教一下万能的佬友们,对于大模型的 监控、健康检查 和 故障自愈(自动启动),大家目前都选择什么方案或最佳实践?
万分感谢 🫡