希望能增加节点运行监控prometheus metrics
常用的metrics
- CPU, MEM, DISK
- p2p number
- block height
- validator rank
- process up and up time
- produced block number
另外关于block rate
- 因零出块惩罚极其严重, 除了必要的预警监控之外, 实际运行的报错监控也很重要, 目前能方便获取的block rate 出块率是跟零出块惩罚关系最为紧密的一个指标, 可以从浏览器上获取, 但目前该指标对报警配置并不友好
相关详细issue见 github issue 1787
而且考虑到网络抓取的稳定性, 节点内置相关metric更为合理。
鉴于以上原因, 把相关常用metric和block rate 归并到这个帖子中,便于讨论总结一个完整的监控解决方案。