vergil-v1有一个奇怪的生产问题,佬帮忙指点下下一步思路 中发帖

下午服务B里面有条告警提示处理超时(timeout),业务上是服务A去RPC【注意这个RPC是公司内部封的HTTP,后面可以用CURL测试】调用服务B 
但是,是偶现的,一会又突然正常了
排查了服务B的接口代码发现除了数据库操作就没有高耗时情况,和ai也确认了下
排查sql执行计划,这条sql也没问题
后面找运维确认了异常时间的监控盘有吗cpu和内存,健康检查;
网络是否有超时、丢包、连接数异常; DB 连接池是否耗尽或等待严重
得到反馈都是正常的,但是ELK上还是隔一会就error下
[image]
目前拉高了数据库链接数,之前这个项目历史配2;还有什么思路呢