节点监控 prometheus 及block rate 监控

deadlock · 2021 年5 月 28 日 03:56

希望能增加节点运行监控prometheus metrics

常用的metrics

CPU, MEM, DISK
p2p number
block height
validator rank
process up and up time
produced block number

另外关于block rate

因零出块惩罚极其严重，除了必要的预警监控之外，实际运行的报错监控也很重要，目前能方便获取的block rate 出块率是跟零出块惩罚关系最为紧密的一个指标，可以从浏览器上获取，但目前该指标对报警配置并不友好
相关详细issue见 github issue 1787

而且考虑到网络抓取的稳定性，节点内置相关metric更为合理。

鉴于以上原因，把相关常用metric和block rate 归并到这个帖子中，便于讨论总结一个完整的监控解决方案。

alliswell · 2021 年5 月 28 日 06:24

可以加一些监控指标，比如出现过零出块的节点，通过metrics上报，或者通过RPC接口获取
但是其实这并不能达到很好的预警效果，因为如果节点已经出现故障了，无论是上报还是从RPC获取，都已经没用了。
可以通过同时监控多个节点然后做对比（如块高、连接数等）及时发现某个节点的问题，看看大家有什么更好的方案呢？

BoneyBee68 · 2021 年5 月 28 日 06:36

欢迎社区伙伴献策献力