hbase region in transition too long

1. 问题描述

2016年3月30日晚上10:15左右收到下载量低和爬虫流量低报警,意识到可能hbase存数据可能出问题,打开

hbase监控页面

有两个hbase结点宕机, 于是马上登陆相关服务器重启hbase服务。

2. 事后分析

zookeeper 网络抖动导致hhbase01/hbase02 被hbase-master下线。

zookeeper 网络抖动。

hbase02 不能获取路由。

hbase-master 将其标记为dead node 作下线处理。

3. 附加问题

重启hbase01 和 hbase02的过程中,hbase02与hbase05交互的一个region卡死,导致hbase02不能起来,整个集群无法做blancer, 20160331早上1点15集群崩溃,整个系统瘫痪。 我在早上六点半左右重启了hbase05和hbase02,问题解决。

hbase02 无法起来,大量滚动 hfile.LruBlockCache

master 无法 running balancer because 1 region(s) in transition

回溯问题,可能断网那个时候, hbase05 该 region 在 in transition 过程中被标记为pending, 但是转移中,连接被重置,接着hbase02掉线重启,hbase02自身的wal记录状态和zookeerper 里面的状态不一致,拿不到该region,起不来服务,进而慢慢影响整个集群。

hbase05 Connection reset by peer