1. 问题描述
2016年3月30日晚上10:15左右收到下载量低和爬虫流量低报警,意识到可能hbase存数据可能出问题,打开
有两个hbase结点宕机, 于是马上登陆相关服务器重启hbase服务。
2. 事后分析
zookeeper 网络抖动导致hhbase01/hbase02 被hbase-master下线。
zookeeper 网络抖动。
hbase02 不能获取路由。
hbase-master 将其标记为dead node 作下线处理。
3. 附加问题
重启hbase01 和 hbase02的过程中,hbase02与hbase05交互的一个region卡死,导致hbase02不能起来,整个集群无法做blancer, 20160331早上1点15集群崩溃,整个系统瘫痪。 我在早上六点半左右重启了hbase05和hbase02,问题解决。
hbase02 无法起来,大量滚动 hfile.LruBlockCache
master 无法 running balancer because 1 region(s) in transition
回溯问题,可能断网那个时候, hbase05 该 region 在 in transition 过程中被标记为pending, 但是转移中,连接被重置,接着hbase02掉线重启,hbase02自身的wal记录状态和zookeerper 里面的状态不一致,拿不到该region,起不来服务,进而慢慢影响整个集群。
hbase05 Connection reset by peer