@Gengsir[内含红包]服务器时常有程序占满CPU,但占满CPU时又连不上服务器,请问如何高效排查? 中发帖

TLDR:服务器时常有程序占满CPU,但占满CPU时又连不上服务器,请问如何高效排查? 
实验室有一台公用服务器,近期时常出现SSH连接不上的情况。 😭
[screenshot_20250324095300]
在SSH连不上时,进BMC后台发现,CPU负载异常的高,同时KVM控制台也卡到没办法用。SSH能连进去的瞬间,通过htop查看系统平均负荷,数值也是大几百。
[screenshot_20250324095745]
现在的问题是:CPU负载高时,连不进服务器;连不进服务器,就没办法做排查 😭
想请教下各位佬友有没有好的解决方案?感谢!

这种连不上的情况,如何进行排查?
比如设置一个定时任务,把消耗高的进程名及对应的用户名给Dump出来?
或者,能够在系统层面限制每个用户的资源使用?(属于是没有办法的办法了)

呼应标题:口令红包:74308740 感谢各位佬友帮忙!