Alluxio 1.2.0 HA 問題集合

一、問題之 last execution took xxxx ms. Longer than the interval xxx

集羣情況如下:
hdfs-yarn-1;IP地址:192.168.1.151;服務:Master & Worker & Zookeeper
hdfs-yarn-2;IP地址:192.168.1.152;服務:Master & Worker
hdfs-yarn-3;IP地址:192.168.1.153;服務:Worker

現象:
當將hdfs-yarn-1上的master kill之後,worker向 hdfs-yarn-2上面的master註冊的時候,報如下錯誤:

2016-08-20 10:52:30,425 INFO  logger.type (AbstractClient.java:connect) - Client registered with FileSystemMasterWorker master @ HDFS-YARN-2/192.168.1.152:19998
2016-08-20 10:52:48,509 WARN  logger.type (SleepingTimer.java:tick) - Worker Pin List Sync last execution took 43787 ms. Longer than the interval 1000
2016-08-20 10:52:48,520 WARN  logger.type (SleepingTimer.java:tick) - Worker FileSystemMaster Sync last execution took 43673 ms. Longer than the interval 1000

之後的現象是,hdfs-yarn-2中沒有一臺可用的 worker,如下圖:
這裏寫圖片描述

根據上面的錯誤提示,可以知道,其是因爲 Pin List 和 FileSystemMaster 元數據信息恢復的時候,所使用的時候超過了系統設定的心跳檢測時間1000ms,所以可能引起向新master註冊不成功。

解決方法:
修改 alluxio-site.properties 中修改 Pin List 和 FileSystemMaster 的心跳檢測時長,如下:

alluxio.worker.block.heartbeat.timeout.ms=60000
alluxio.worker.filesystem.heartbeat.interval.ms=60000

再次測試,OK了。

發佈了29 篇原創文章 · 獲贊 18 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章