..
排查COS备份异常

每天将前一日的数据备份到COS(腾讯云的对象存储)。这样即能保证数据的安全性,也能减少机房HDFS的数据量。

通常每月有一次备份失败的告警,MR任务提示错误Code为504,怀疑是COS网络不稳定导致,因有失败后retry机制,而且出现的频率很低也就没去理会它。

突然,从某一天开始每天都能收到备份失败的告警。虽然retry也能解决,但每天都告警且错误还是504。感觉这个错误可能不是COS网络问题,通过排查异常机器IP,发现竟然都是最新Hadoop集群新添加的一批机器。比如新旧机器的网络配置发现是新增机器缺少一条路由策略导致。和系统部同事沟通修复后问题解决。

原来为了安全,访问COS的数据只能通过指定IP。

在这次故障排查中暴露出几个问题

  • 对于一些偶发的异常没有足够重视
  • 新机器上线时没有相关重要配置的检测机制

更加深层次的问题是对于机器上线的流程、配置管理不到位。在公司的发展过程中对于机器的管理是从手动慢慢到自动演化。在演化过程中就会出现各种管理不到位的情况,不同阶段需要用不同的手段解决问题。

其次机器管理的全责模糊,物理机原则上是系统部门负责维护,但是大数据的物理机只有大数据部门操作而且权限很大。这样导致一些独特的配置是大数据部门自己维护,造成管理上的混乱。