1 概念
目前最新的0.8.0版本里面
worker -> 進程。一個worker只能執行同一個spout/bolt的task,一個worker裏面可以有多個executor。
executor -> 線程。 一個executor執行可以執行多個task。
task -> storm進行任務分配的基本單位。
2 例子
storm實戰入門一
本節探討一下storm具體怎麼使用,明白怎麼在windows下開發storm程序。
功能描述:實時隨機輸出一字符串。
在開發前記得導入storm需要的jar包。
1、SimpleSpout類繼承BaseRichSpout類,用來產生數據並且向topology裏面發出消息:tuple。
package com.ljq.helloword; import java.util.Map; import java.util.Random; import backtype.storm.spout.SpoutOutputCollector; import backtype.storm.task.TopologyContext; import backtype.storm.topology.OutputFieldsDeclarer; import backtype.storm.topology.base.BaseRichSpout; import backtype.storm.tuple.Fields; import backtype.storm.tuple.Values; /** * Spout起到和外界溝通的作用,他可以從一個數據庫中按照某種規則取數據,也可以從分佈式隊列中取任務 * * @author Administrator * */ @SuppressWarnings("serial") public class SimpleSpout extends BaseRichSpout{ //用來發射數據的工具類 private SpoutOutputCollector collector; private static String[] info = new String[]{ "comaple\t,12424,44w46,654,12424,44w46,654,", "lisi\t,435435,6537,12424,44w46,654,", "lipeng\t,45735,6757,12424,44w46,654,", "hujintao\t,45735,6757,12424,44w46,654,", "jiangmin\t,23545,6457,2455,7576,qr44453", "beijing\t,435435,6537,12424,44w46,654,", "xiaoming\t,46654,8579,w3675,85877,077998,", "xiaozhang\t,9789,788,97978,656,345235,09889,", "ceo\t,46654,8579,w3675,85877,077998,", "cto\t,46654,8579,w3675,85877,077998,", "zhansan\t,46654,8579,w3675,85877,077998,"}; Random random=new Random(); /** * 初始化collector */ public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) { this.collector = collector; } /** * 在SpoutTracker類中被調用,每調用一次就可以向storm集羣中發射一條數據(一個tuple元組),該方法會被不停的調用 */ @Override public void nextTuple() { try { String msg = info[random.nextInt(11)]; // 調用發射方法 collector.emit(new Values(msg)); // 模擬等待100ms Thread.sleep(100); } catch (InterruptedException e) { e.printStackTrace(); } } /** * 定義字段id,該id在簡單模式下沒有用處,但在按照字段分組的模式下有很大的用處。 * 該declarer變量有很大作用,我們還可以調用declarer.declareStream();來定義stramId,該id可以用來定義更加複雜的流拓撲結構 */ @Override public void declareOutputFields(OutputFieldsDeclarer declarer) { declarer.declare(new Fields("source")); //collector.emit(new Values(msg));參數要對應 } }
2、SimpleBolt類繼承BaseBasicBolt類,處理一個輸入tuple。
package com.ljq.helloword; import backtype.storm.topology.BasicOutputCollector; import backtype.storm.topology.OutputFieldsDeclarer; import backtype.storm.topology.base.BaseBasicBolt; import backtype.storm.tuple.Fields; import backtype.storm.tuple.Tuple; import backtype.storm.tuple.Values; /** * 接收噴發節點(Spout)發送的數據進行簡單的處理後,發射出去。 * * @author Administrator * */ @SuppressWarnings("serial") public class SimpleBolt extends BaseBasicBolt { public void execute(Tuple input, BasicOutputCollector collector) { try { String msg = input.getString(0); if (msg != null){ //System.out.println("msg="+msg); collector.emit(new Values(msg + "msg is processed!")); } } catch (Exception e) { e.printStackTrace(); } } public void declareOutputFields(OutputFieldsDeclarer declarer) { declarer.declare(new Fields("info")); } }
3、SimpleTopology類包含一個main函數,是Storm程序執行的入口點,包括一個數據噴發節點spout和一個數據處理節點bolt。
package com.ljq.helloword; import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.StormSubmitter; import backtype.storm.topology.TopologyBuilder; /** * 定義了一個簡單的topology,包括一個數據噴發節點spout和一個數據處理節點bolt。 * * @author Administrator * */ public class SimpleTopology { public static void main(String[] args) { try { // 實例化TopologyBuilder類。 TopologyBuilder topologyBuilder = new TopologyBuilder(); // 設置噴發節點並分配併發數,該併發數將會控制該對象在集羣中的線程數。 topologyBuilder.setSpout("SimpleSpout", new SimpleSpout(), 1); // 設置數據處理節點並分配併發數。指定該節點接收噴發節點的策略爲隨機方式。 topologyBuilder.setBolt("SimpleBolt", new SimpleBolt(), 3).shuffleGrouping("SimpleSpout"); Config config = new Config(); config.setDebug(true); if (args != null && args.length > 0) { config.setNumWorkers(1); StormSubmitter.submitTopology(args[0], config, topologyBuilder.createTopology()); } else { // 這裏是本地模式下運行的啓動代碼。 config.setMaxTaskParallelism(1); LocalCluster cluster = new LocalCluster(); cluster.submitTopology("simple", config, topologyBuilder.createTopology()); } } catch (Exception e) { e.printStackTrace(); } } }
運行結果效果如下:
3 參數優化
1 並行度
摘要:workers爲storm提供的工作進程,程序的並行度可以設置(包括spout和bolt的並行度,如果有acker的話還包括acker的並行度)並行度即爲task 數目。
一般而言 worker和task之間的比例,即1個worker包含10~15個左右,當然根據配置和應用需要測試優化。
一個storm topology運行起來之後, 會在supervisor 機器上啓動一些進程來運行spout和bolt實例.
如果一個topology裏面一共有一個spout, 一個bolt。 其中spout的parallelism是2, bolt的parallelism是4, 那麼我們可以把這個topology的總工作量看成是6, 那麼一共有6個task,那麼/tasks/{topology-id}下面一共會有6個以task-id命名的文件,其中兩個文件的內容是spout的id,
其它四個文件的內容是bolt的id。
task->node+port, 它其實就是從task-id到supervisor-id+port的映射, 也就是把這個task分配給某臺機器的某個端口來做。
topology裏面的組件(spout/bolt)都根據parallelism被分成多個task, 而這些task被分配給supervisor的多個worker來執行。
task都會跟一個componment-id關聯, componment是spout和bolt的一個統稱.
對於每一個component在部署的時候都會指定使用的數量, 在storm-user中有一個討論說明了這個問題:
裏面的大意是說, 通過設置parallelism來指定執行spout/bolt的線程數量. 而在配置中還有另外一個地方(backtype.storm.Config.setNumWorkers(int))來指定一個storm集羣中執行topolgy的進程數量, 所有的線程將在這些指定的worker進程中運行.
比如說一個topology中要啓動300個線程來運行spout/bolt, 而指定的worker進程數量是60個, 那麼storm將會給每個worker分配5個線程來跑spout/bolt, 如果要對一個topology進行調優, 可以調整worker數量和spout/bolt的parallelism數量(調整參數之後要記得重新部署topology. 後續會爲該操作提供一個swapping的功能來減小重新部署的時間).
對於worker和task之間的比例, nathan也給出了參考,
即1個worker包含10~15個左右, 當然這個參考, 實際情況還是要根據配置和測試情況
轉自 http://xumingming.sinaapp.com/category/storm/
2 內存優化
Storm中真正幹活的是各個worker,而worker由supervisor負責啓動。在topology啓動過程中我們會看到如下的啓動日誌:
這就是啓動一個worker進程,也就是一個JVM進程。
默認情況下,Storm啓動worker進程時,JVM的最大內存是768M。
但我在使用過程中,由於會在Bolt中加載大量數據,768M內存無法滿足需求,會導致內存溢出程序崩潰。
經過研究發現,可以通過在Strom的配置文件storm.yaml中設置worker的啓動參數:
worker.childopts: "-Xmx2048m"該參數會在啓動時傳遞給JVM,然後就可以在worker中使用2048m內存了。
目前好像Storm還沒有配置文件的詳細說明,比如可以配置哪些參數,怎麼配置?
大家可以先參考Storm源代碼中的Config.java.
3 其他
max_spout_pending=100000 //spout可以緩存的tuple數目
topology_message_timeout_secs=60 // message被完全處理完的時間,超過這個時間,spout 將產生failed
num_workers=4 //worker的數目