节点监控 prometheus 及block rate 监控

希望能增加节点运行监控prometheus metrics

常用的metrics

  • CPU, MEM, DISK
  • p2p number
  • block height
  • validator rank
  • process up and up time
  • produced block number

另外关于block rate

  • 因零出块惩罚极其严重, 除了必要的预警监控之外, 实际运行的报错监控也很重要, 目前能方便获取的block rate 出块率是跟零出块惩罚关系最为紧密的一个指标, 可以从浏览器上获取, 但目前该指标对报警配置并不友好
    相关详细issue见 github issue 1787

而且考虑到网络抓取的稳定性, 节点内置相关metric更为合理。

鉴于以上原因, 把相关常用metric和block rate 归并到这个帖子中,便于讨论总结一个完整的监控解决方案。

3 Likes

可以加一些监控指标,比如出现过零出块的节点,通过metrics上报,或者通过RPC接口获取
但是其实这并不能达到很好的预警效果,因为如果节点已经出现故障了,无论是上报还是从RPC获取,都已经没用了。
可以通过同时监控多个节点然后做对比(如块高、连接数等)及时发现某个节点的问题,看看大家有什么更好的方案呢?

欢迎社区伙伴献策献力