hbase region in transition too long

1. 问题描述

2016年3月30日晚上10:15左右收到下载量低和爬虫流量低报警，意识到可能hbase存数据可能出问题，打开

hbase监控页面

有两个hbase结点宕机, 于是马上登陆相关服务器重启hbase服务。

2. 事后分析

zookeeper 网络抖动导致hhbase01/hbase02 被hbase-master下线。

zookeeper 网络抖动。

hbase02 不能获取路由。

hbase-master 将其标记为dead node 作下线处理。

3. 附加问题

重启hbase01 和 hbase02的过程中，hbase02与hbase05交互的一个region卡死，导致hbase02不能起来，整个集群无法做blancer， 20160331早上1点15集群崩溃，整个系统瘫痪。我在早上六点半左右重启了hbase05和hbase02，问题解决。

hbase02 无法起来，大量滚动 hfile.LruBlockCache

master 无法 running balancer because 1 region(s) in transition

回溯问题，可能断网那个时候, hbase05 该 region 在 in transition 过程中被标记为pending, 但是转移中，连接被重置，接着hbase02掉线重启，hbase02自身的wal记录状态和zookeerper 里面的状态不一致，拿不到该region，起不来服务,进而慢慢影响整个集群。

hbase05 Connection reset by peer

The Eye of Data (@Buttonwood)

Float like a butterfly! Stand like a buttonwood!

hbase region in transition too long

1. 问题描述

2. 事后分析

3. 附加问题