HMaster自動退出源於regionServer宕機

一大早起來關注我的小集羣,發現HBase不好使了,弄得毫無頭緒——只好重新查看守護進程jps 後 返現傳說中的HMaster居然。。。不見了!

————查看日誌!果然:

2012-12-17 22:51:13,317 INFO org.apache.zookeeper.ClientCnxn: Unable to reconnect to ZooKeeper service, session 0x3ba92b93c80000 has expired, closing socket connection
2012-12-17 22:51:13,318 FATAL org.apache.hadoop.hbase.master.HMaster: master:60000-0x3ba92b93c80000 master:60000-0x3ba92b93c80000 received expired from ZooKeeper, aborting
org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode = Session expired
at org.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.connectionEvent(ZooKeeperWatcher.java:344)
at org.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.process(ZooKeeperWatcher.java:262)
at org.apache.zookeeper.ClientCnxn$EventThread.processEvent(ClientCnxn.java:530)
at org.apache.zookeeper.ClientCnxn$EventThread.run(ClientCnxn.java:506)
2012-12-17 22:51:13,319 INFO org.apache.hadoop.hbase.master.HMaster: Aborting

哈哈,這下就清楚了,google一下“regionServer宕機” Zookeeper service session expired 

有人做出如下解釋,挺好的:

 網絡斷開,心跳發送失敗,嘗試連接其他的zookeeper服務器。(zookeeper會嘗試連接其他所有的服務器), 網絡恢復了,連接成功,但 session已經過期了,所以 zookeeper 客戶端關閉了;當然HMaster也會受到Zookeeper的過期失效信息,產生中斷;

相關重要原因總結如下:本人小集羣全部虛擬機,網絡要考慮;一些設置參數,沒有仔細弄清楚,也必須重新審視;

解決方案以及源代碼的審視http://blog.sina.com.cn/s/blog_6b10e1740100rzi0.html    http://jiajun.iteye.com/blog/1013215 以及 http://blog.csdn.net/ucool2007/article/details/6604612   其中文章http://blog.sina.com.cn/s/blog_6b10e1740100rzi0.html還對java中的GC機制進行了考慮,給出了配置文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章