Storm 集羣異常的解決

背景: 5臺機器, 部署storm計算節點, 2臺機器drpc節點. 環境如下:
Storm: 0.7.1
Linux: CentOS 5.5
Java: jdk 1.6.37
問題:storm 集羣總是在運行一段時間後某些節點停止工作, 工作進程退出.
解決過程:
1. 查看storm日誌
發現storm拋出如下異常:
worker [ERROR] Error on initialization of server mk-workerjava.lang.RuntimeException: org.zeromq.ZMQException: Invalid argument(0x16)
at clojure.lang.LazySeq.sval(LazySeq.java:47)
at clojure.lang.LazySeq.seq …
1. 將ZeroMQ降級
通過Google搜索, 發現有很多人問這個問題,nathanmarz 的建議是將ZeroMQ的版本降級爲2.1.7; 原來系統使用的3.0.2,降級爲2.1.7後發現仍然存在這個問題, 基本可以排除是由於ZeroMQ導致的.
1. 升級Storm
2. Storm升級至0.7.2後, 仍然存在問題. 看來是安裝部署的問題
3. 真正的原因
4. , 查看日誌, 重新安裝. 總算髮現了問題出在DNS服務上, 5臺計算節點使用內部的DNS服務, 但是這臺DNS服務器不夠穩定, 改成靜態域名解析後問題不再出現。
這是做dayoou.com這個項目的時候遇到的問題,貢獻出來供衆看官批評啦。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章