storm第一篇--概念,例子,參數優化

1 概念

目前最新的0.8.0版本里面
worker -> 進程。一個worker只能執行同一個spout/bolt的task,一個worker裏面可以有多個executor。
executor -> 線程。 一個executor執行可以執行多個task。
task -> storm進行任務分配的基本單位。


2  例子

storm實戰入門一

本節探討一下storm具體怎麼使用,明白怎麼在windows下開發storm程序。

功能描述:實時隨機輸出一字符串。

在開發前記得導入storm需要的jar包。
1、SimpleSpout類繼承BaseRichSpout類,用來產生數據並且向topology裏面發出消息:tuple。

複製代碼
package com.ljq.helloword;

import java.util.Map;
import java.util.Random;

import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichSpout;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;

/**
 * Spout起到和外界溝通的作用,他可以從一個數據庫中按照某種規則取數據,也可以從分佈式隊列中取任務
 * 
 * @author Administrator
 *
 */
@SuppressWarnings("serial")
public class SimpleSpout extends BaseRichSpout{
    //用來發射數據的工具類
    private SpoutOutputCollector collector;
    private static String[] info = new String[]{
        "comaple\t,12424,44w46,654,12424,44w46,654,",
        "lisi\t,435435,6537,12424,44w46,654,",
        "lipeng\t,45735,6757,12424,44w46,654,",
        "hujintao\t,45735,6757,12424,44w46,654,",
        "jiangmin\t,23545,6457,2455,7576,qr44453",
        "beijing\t,435435,6537,12424,44w46,654,",
        "xiaoming\t,46654,8579,w3675,85877,077998,",
        "xiaozhang\t,9789,788,97978,656,345235,09889,",
        "ceo\t,46654,8579,w3675,85877,077998,",
        "cto\t,46654,8579,w3675,85877,077998,",
        "zhansan\t,46654,8579,w3675,85877,077998,"};
    
    Random random=new Random();
    
    /**
     * 初始化collector
     */
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
    }
    
    /**
     * 在SpoutTracker類中被調用,每調用一次就可以向storm集羣中發射一條數據(一個tuple元組),該方法會被不停的調用
     */
    @Override
    public void nextTuple() {
        try {
            String msg = info[random.nextInt(11)];
            // 調用發射方法
            collector.emit(new Values(msg));
            // 模擬等待100ms
            Thread.sleep(100);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    /**
     * 定義字段id,該id在簡單模式下沒有用處,但在按照字段分組的模式下有很大的用處。
     * 該declarer變量有很大作用,我們還可以調用declarer.declareStream();來定義stramId,該id可以用來定義更加複雜的流拓撲結構
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("source")); //collector.emit(new Values(msg));參數要對應
    }

}
複製代碼

2、SimpleBolt類繼承BaseBasicBolt類,處理一個輸入tuple。

複製代碼
package com.ljq.helloword;

import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;

/**
 * 接收噴發節點(Spout)發送的數據進行簡單的處理後,發射出去。
 * 
 * @author Administrator
 * 
 */
@SuppressWarnings("serial")
public class SimpleBolt extends BaseBasicBolt {

    public void execute(Tuple input, BasicOutputCollector collector) {
        try {
            String msg = input.getString(0);
            if (msg != null){
                //System.out.println("msg="+msg);
                collector.emit(new Values(msg + "msg is processed!"));
            }
                
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("info"));
    }

}
複製代碼

3、SimpleTopology類包含一個main函數,是Storm程序執行的入口點,包括一個數據噴發節點spout和一個數據處理節點bolt。

複製代碼
package com.ljq.helloword;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;

/**
 * 定義了一個簡單的topology,包括一個數據噴發節點spout和一個數據處理節點bolt。
 * 
 * @author Administrator
 *
 */
public class SimpleTopology {
    public static void main(String[] args) {
        try {
            // 實例化TopologyBuilder類。
            TopologyBuilder topologyBuilder = new TopologyBuilder();
            // 設置噴發節點並分配併發數,該併發數將會控制該對象在集羣中的線程數。
            topologyBuilder.setSpout("SimpleSpout", new SimpleSpout(), 1);
            // 設置數據處理節點並分配併發數。指定該節點接收噴發節點的策略爲隨機方式。
            topologyBuilder.setBolt("SimpleBolt", new SimpleBolt(), 3).shuffleGrouping("SimpleSpout");
            Config config = new Config();
            config.setDebug(true);
            if (args != null && args.length > 0) {
                config.setNumWorkers(1);
                StormSubmitter.submitTopology(args[0], config, topologyBuilder.createTopology());
            } else {
                // 這裏是本地模式下運行的啓動代碼。
                config.setMaxTaskParallelism(1);
                LocalCluster cluster = new LocalCluster();
                cluster.submitTopology("simple", config, topologyBuilder.createTopology());
            }
            
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }
}
複製代碼

運行結果效果如下:

轉自:http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.html


3 參數優化

1 並行度


摘要:workers爲storm提供的工作進程,程序的並行度可以設置(包括spout和bolt的並行度,如果有acker的話還包括acker的並行度)並行度即爲task 數目。

一般而言  worker和task之間的比例,即1個worker包含10~15個左右,當然根據配置和應用需要測試優化。


一個storm topology運行起來之後, 會在supervisor 機器上啓動一些進程來運行spout和bolt實例. 

如果一個topology裏面一共有一個spout, 一個bolt。 其中spout的parallelism是2, bolt的parallelism是4, 那麼我們可以把這個topology的總工作量看成是6, 那麼一共有6個task,那麼/tasks/{topology-id}下面一共會有6個以task-id命名的文件,其中兩個文件的內容是spout的id, 其它四個文件的內容是bolt的id。 

task->node+port, 它其實就是從task-id到supervisor-id+port的映射, 也就是把這個task分配給某臺機器的某個端口來做。 

topology裏面的組件(spout/bolt)都根據parallelism被分成多個task, 而這些task被分配給supervisor的多個worker來執行。 

task都會跟一個componment-id關聯, componment是spout和bolt的一個統稱. 

對於每一個component在部署的時候都會指定使用的數量, 在storm-user中有一個討論說明了這個問題: 
裏面的大意是說, 通過設置parallelism來指定執行spout/bolt的線程數量. 而在配置中還有另外一個地方(backtype.storm.Config.setNumWorkers(int))來指定一個storm集羣中執行topolgy的進程數量, 所有的線程將在這些指定的worker進程中運行. 比如說一個topology中要啓動300個線程來運行spout/bolt, 而指定的worker進程數量是60個, 那麼storm將會給每個worker分配5個線程來跑spout/bolt, 如果要對一個topology進行調優, 可以調整worker數量和spout/bolt的parallelism數量(調整參數之後要記得重新部署topology. 後續會爲該操作提供一個swapping的功能來減小重新部署的時間). 

對於worker和task之間的比例, nathan也給出了參考, 即1個worker包含10~15個左右, 當然這個參考, 實際情況還是要根據配置和測試情況 

轉自 http://xumingming.sinaapp.com/category/storm/

2 內存優化

Storm中真正幹活的是各個worker,而worker由supervisor負責啓動。在topology啓動過程中我們會看到如下的啓動日誌:



這就是啓動一個worker進程,也就是一個JVM進程。


默認情況下,Storm啓動worker進程時,JVM的最大內存是768M。

但我在使用過程中,由於會在Bolt中加載大量數據,768M內存無法滿足需求,會導致內存溢出程序崩潰。

經過研究發現,可以通過在Strom的配置文件storm.yaml中設置worker的啓動參數:

 worker.childopts: "-Xmx2048m"
該參數會在啓動時傳遞給JVM,然後就可以在worker中使用2048m內存了。


目前好像Storm還沒有配置文件的詳細說明,比如可以配置哪些參數,怎麼配置?

大家可以先參考Storm源代碼中的Config.java.



3 其他

max_spout_pending=100000    //spout可以緩存的tuple數目
topology_message_timeout_secs=60      // message被完全處理完的時間,超過這個時間,spout 將產生failed
num_workers=4          //worker的數目

發佈了148 篇原創文章 · 獲贊 42 · 訪問量 195萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章