1 概念

目前最新的0.8.0版本里面
worker -> 進程。一個worker只能執行同一個spout/bolt的task，一個worker裏面可以有多個executor。
executor -> 線程。一個executor執行可以執行多個task。
task -> storm進行任務分配的基本單位。

2 例子

storm實戰入門一

本節探討一下storm具體怎麼使用，明白怎麼在windows下開發storm程序。

功能描述：實時隨機輸出一字符串。

在開發前記得導入storm需要的jar包。
1、SimpleSpout類繼承BaseRichSpout類，用來產生數據並且向topology裏面發出消息：tuple。

package com.ljq.helloword;

import java.util.Map;
import java.util.Random;

import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichSpout;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;

/**
 * Spout起到和外界溝通的作用，他可以從一個數據庫中按照某種規則取數據，也可以從分佈式隊列中取任務
 * 
 * @author Administrator
 *
 */
@SuppressWarnings("serial")
public class SimpleSpout extends BaseRichSpout{
    //用來發射數據的工具類
    private SpoutOutputCollector collector;
    private static String[] info = new String[]{
        "comaple\t,12424,44w46,654,12424,44w46,654,",
        "lisi\t,435435,6537,12424,44w46,654,",
        "lipeng\t,45735,6757,12424,44w46,654,",
        "hujintao\t,45735,6757,12424,44w46,654,",
        "jiangmin\t,23545,6457,2455,7576,qr44453",
        "beijing\t,435435,6537,12424,44w46,654,",
        "xiaoming\t,46654,8579,w3675,85877,077998,",
        "xiaozhang\t,9789,788,97978,656,345235,09889,",
        "ceo\t,46654,8579,w3675,85877,077998,",
        "cto\t,46654,8579,w3675,85877,077998,",
        "zhansan\t,46654,8579,w3675,85877,077998,"};
    
    Random random=new Random();
    
    /**
     * 初始化collector
     */
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
    }
    
    /**
     * 在SpoutTracker類中被調用，每調用一次就可以向storm集羣中發射一條數據（一個tuple元組），該方法會被不停的調用
     */
    @Override
    public void nextTuple() {
        try {
            String msg = info[random.nextInt(11)];
            // 調用發射方法
            collector.emit(new Values(msg));
            // 模擬等待100ms
            Thread.sleep(100);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    /**
     * 定義字段id，該id在簡單模式下沒有用處，但在按照字段分組的模式下有很大的用處。
     * 該declarer變量有很大作用，我們還可以調用declarer.declareStream();來定義stramId，該id可以用來定義更加複雜的流拓撲結構
     */
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("source")); //collector.emit(new Values(msg));參數要對應
    }

}

2、SimpleBolt類繼承BaseBasicBolt類，處理一個輸入tuple。

package com.ljq.helloword;

import backtype.storm.topology.BasicOutputCollector;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseBasicBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;

/**
 * 接收噴發節點(Spout)發送的數據進行簡單的處理後，發射出去。
 * 
 * @author Administrator
 * 
 */
@SuppressWarnings("serial")
public class SimpleBolt extends BaseBasicBolt {

    public void execute(Tuple input, BasicOutputCollector collector) {
        try {
            String msg = input.getString(0);
            if (msg != null){
                //System.out.println("msg="+msg);
                collector.emit(new Values(msg + "msg is processed!"));
            }
                
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("info"));
    }

}

3、SimpleTopology類包含一個main函數，是Storm程序執行的入口點，包括一個數據噴發節點spout和一個數據處理節點bolt。

package com.ljq.helloword;

import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.StormSubmitter;
import backtype.storm.topology.TopologyBuilder;

/**
 * 定義了一個簡單的topology，包括一個數據噴發節點spout和一個數據處理節點bolt。
 * 
 * @author Administrator
 *
 */
public class SimpleTopology {
    public static void main(String[] args) {
        try {
            // 實例化TopologyBuilder類。
            TopologyBuilder topologyBuilder = new TopologyBuilder();
            // 設置噴發節點並分配併發數，該併發數將會控制該對象在集羣中的線程數。
            topologyBuilder.setSpout("SimpleSpout", new SimpleSpout(), 1);
            // 設置數據處理節點並分配併發數。指定該節點接收噴發節點的策略爲隨機方式。
            topologyBuilder.setBolt("SimpleBolt", new SimpleBolt(), 3).shuffleGrouping("SimpleSpout");
            Config config = new Config();
            config.setDebug(true);
            if (args != null && args.length > 0) {
                config.setNumWorkers(1);
                StormSubmitter.submitTopology(args[0], config, topologyBuilder.createTopology());
            } else {
                // 這裏是本地模式下運行的啓動代碼。
                config.setMaxTaskParallelism(1);
                LocalCluster cluster = new LocalCluster();
                cluster.submitTopology("simple", config, topologyBuilder.createTopology());
            }
            
        } catch (Exception e) {
            e.printStackTrace(); 
        }
    }
}

運行結果效果如下：

轉自：http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.html

3 參數優化

1 並行度

摘要：workers爲storm提供的工作進程，程序的並行度可以設置（包括spout和bolt的並行度，如果有acker的話還包括acker的並行度）並行度即爲task 數目。

一般而言 worker和task之間的比例,即1個worker包含10~15個左右,當然根據配置和應用需要測試優化。

一個storm topology運行起來之後, 會在supervisor 機器上啓動一些進程來運行spout和bolt實例.

如果一個topology裏面一共有一個spout, 一個bolt。其中spout的parallelism是2, bolt的parallelism是4, 那麼我們可以把這個topology的總工作量看成是6，那麼一共有6個task，那麼/tasks/{topology-id}下面一共會有6個以task-id命名的文件，其中兩個文件的內容是spout的id, 其它四個文件的內容是bolt的id。

task->node+port, 它其實就是從task-id到supervisor-id+port的映射，也就是把這個task分配給某臺機器的某個端口來做。

topology裏面的組件(spout/bolt)都根據parallelism被分成多個task, 而這些task被分配給supervisor的多個worker來執行。

task都會跟一個componment-id關聯, componment是spout和bolt的一個統稱.

對於每一個component在部署的時候都會指定使用的數量, 在storm-user中有一個討論說明了這個問題:
裏面的大意是說, 通過設置parallelism來指定執行spout/bolt的線程數量. 而在配置中還有另外一個地方(backtype.storm.Config.setNumWorkers(int))來指定一個storm集羣中執行topolgy的進程數量, 所有的線程將在這些指定的worker進程中運行. 比如說一個topology中要啓動300個線程來運行spout/bolt, 而指定的worker進程數量是60個, 那麼storm將會給每個worker分配5個線程來跑spout/bolt, 如果要對一個topology進行調優, 可以調整worker數量和spout/bolt的parallelism數量(調整參數之後要記得重新部署topology. 後續會爲該操作提供一個swapping的功能來減小重新部署的時間).

對於worker和task之間的比例, nathan也給出了參考, 即1個worker包含10~15個左右, 當然這個參考, 實際情況還是要根據配置和測試情況

轉自 http://xumingming.sinaapp.com/category/storm/

2 內存優化

Storm中真正幹活的是各個worker，而worker由supervisor負責啓動。在topology啓動過程中我們會看到如下的啓動日誌：

這就是啓動一個worker進程，也就是一個JVM進程。

默認情況下，Storm啓動worker進程時，JVM的最大內存是768M。

但我在使用過程中，由於會在Bolt中加載大量數據，768M內存無法滿足需求，會導致內存溢出程序崩潰。

經過研究發現，可以通過在Strom的配置文件storm.yaml中設置worker的啓動參數:

 worker.childopts: "-Xmx2048m"

該參數會在啓動時傳遞給JVM，然後就可以在worker中使用2048m內存了。

目前好像Storm還沒有配置文件的詳細說明，比如可以配置哪些參數，怎麼配置？

大家可以先參考Storm源代碼中的Config.java.

3 其他

max_spout_pending=100000 //spout可以緩存的tuple數目
topology_message_timeout_secs=60 // message被完全處理完的時間，超過這個時間，spout 將產生failed
num_workers=4 //worker的數目

crazyhacking

發佈了148 篇原創文章 · 獲贊 42 · 訪問量 195萬+

私信關注

storm第一篇--概念，例子，參數優化

1 概念

2 例子

storm實戰入門一

3 參數優化

個性化推薦系統技術總結

python多線程--theading模塊

信號量，鎖，條件變量的區別

storm的併發

maven 教程一入門

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結