3月9日测试网络暂时停止出块,最新进展:线上升级完成,已经恢复出块

尊敬的各位节点伙伴,大家好,

本次测试网停止出块恢复升级手册,在社区和节点伙伴的帮助下修改完毕,现进行升级提示:

  1. 请以下节点伙伴 (非当前共识轮节点)
    北京时间今天上午8点-下午2点,进行升级和启动restart.sh
    coboplaton infstones. SlowMist Nodeasy Wetez. IRISnet. Gravity Pool platonsg NodeFamily… Tom. TomTomTom. firestealer. CryptoWorld. NewSky. Blockchain007 Spring Yezi. kidding. BOHUI.novanode erica Long tusahre

  2. 请以下节点伙伴 (当前共识轮节点)
    北京时间今天上午8点-下午2点,可先进行升级.下午两点之后启动timer_restart.sh脚本 KubePool 、CloudPool、istaking、MATPool、PlatGo、DolphinTwo、Walkpos、Bit Cat、topool、浜離宮、BlockTEST、RooPool、WonderBox、OG、SNZPool、platon.node.3、BlockPool、FinNX、crazybee、DeepCore、wayish、S5、DMX、Xpool、HelloPool

  3. 不在以上节点列表里的,请暂时不要升级,您的节点状态处于-退出中,已退出;链恢复后,我们会逐一通知

PlatON运营团队

—————————————————————————————————————————

关于当前测试网停止出块问题解决方法的讨论,请移步:

当前测试网停止出块问题解决方案讨论

—————————————————————————————————————————

尊敬的社区成员,大家好,
今天6:56出现的停止出块的问题,经过紧急排查,发现是某些治理相关的异常场景导致个别节点状态出现异常,在101个备选节点选举的时候触发出块异常导致停止出块。

一、解决方案计划
紧急出升级版本修复停止出块的问题
下个版本修复节点状态异常的问题

二、后续影响和处理方案

  • 如果没有治理升级提案,不会再次出现节点状态异常。下一次治理升级前会修复这个问题,已经出现状态异常的节点另行处理。*

三、本次升级方案
针对该问题,技术人员紧急修复,初步计划是替换并更新节点进程,重新启动,升级手册会尽快提供,同时借本次升级,我们希望把治理升级的社区化流程运转起来,烦请各位伙伴对我们的升级手册和脚本多提建议,包括但不限于易用、已读、避免被处罚等维度,我们会对优质的建议给予奖励,再次感谢伙伴们对PlatON的支持和关注!

2020年3月9日13:57
—————————————————————————————————————————————

尊敬的社区成员,大家好,

我们的监控系统于今晨6:56发现测试网络停止出块,该问题正在紧急定位和排查中。

烦请各节点合作伙伴协助我们进行检查各自节点是否出块并反馈情况。

目前现象是PlatON进程还在,但停止出块。如果发现该情况,暂时不用重启,等有进一步进展我们会给大家进行同步。

因此给大家带来的不便,我们深表歉意。

PlatON运营团队

2020年3月9日

4 个赞

进展情况记录(以下时间为北京时间):

————3月11日————

03:17 在社区的帮助下,升级指南和脚本完成

08:02 向节点提交升级指南和脚本,准备开始陆续升级

16:00 各节点完成升级

16:40 网络恢复正常,开始出块

————3月10日————

09:58 升级脚本已经交付评审,25个停止出块前节点已经沟通完成,决定通过脚本进行定时重启,其余节点通过提前安装的形式完成升级

10:00 开始在节点中讨论非停止出块前共识节点升级等待周期和启动脚本具体时间

11:37 开始就非停止出块前共识节点升级等待周期和启动脚本具体时间,在节点群中进行投票

15:37 停止出块前的25个验证节点沟通已经完成,达成一致意向

18:00 两类节点的升级时间投票结果:

  1. 25个节点之外的节点升级启动,两个时间供选择
    (1)北京时间上午8点-下午2点 「15」票
    (2)北京时间上午11点-下午5点 「12」票
  2. 出块前25个节点定时启动时间设定
    (1)北京时间下午2点-4点 「27」票
    (2)北京时间晚上5点-7点 「3」票

18:31 升级指南和相关脚本已经发至各节点合作伙伴,搜集意见和反馈

21:13 升级脚本已经收集到来自节点的14条反馈,并一一进行了答复

————3月9日————

06:56 监控发现测试网络停止出块,停止块高 1386747,ATON、PlatScan浏览器等暂时无法使用

07:30 研发团队开始分析日志,定位问题

07:56 向社区发送公告,通报情况

09:22 初步定位问题是由于某节点在数据库的状态异常有关,正在尝试问题复现。

13:57 公告最新进展,宣布升级处理方案

17:49 已经完成修复方案设计,开始研究治理升级方案

20:11 发布修复方案,交由社区进行讨论

15 个赞