神奇的程序员 (@likaia)为pve搭建一套告警服务 中发帖

[fengmian] 
前言
前几天,我在我的pve服务器上新装了一台虚拟机,启动后,发现设备的总内存占用比平常高,检查了下进程列表,发现是跑网站的那台虚拟机内存泄露了,已经连续8天内存占用超过80%了。
这样下去可不行,为了防止类似问题再发生,我决定在 PVE 上实现一套告警服务,实时监控每台虚拟机的运行状况,一旦发现异常,就通过邮件提醒我。
本文就跟大家分享下我的解决方案,欢迎各位感兴趣的开发者阅读本文。
方案设计
pve本身只提供了一些基础的API,会返回一些数据。因此我们需要借助第三方的工具来实现,我调研到的方案为:

prometheus-pve-exporter 用于将PVE的性能和状态指标暴露出来。
Prometheus 用于采集和存储监控数据,它会采集prometheus-pve-exporter提供的数据进行监控。
Alertmanager 用于处理 Promet...