原创 4.storm中的拓撲示例(進程/線程/任務)

下面定義一個名爲 mytopology 的拓撲,由一個 Spout 組件(BlueSpout)、兩個 Bolt 組件 (GreenBolt 和 YellowBolt)共 3 個組件構成。 Config conf = new Conf

原创 14.bash中 2>&1 & 的解釋

1、首先,bash中0,1,2三個數字分別代表STDIN_FILENO、STDOUT_FILENO、STDERR_FILENO,即標準輸入(一般是鍵盤),標準輸出(一般是顯示屏,準確的說是用戶終端控制檯),標準錯誤(出錯信息輸出)。

原创 13.工作命令彙集

nohup命令 用途:LINUX命令用法,不掛斷地運行命令。    語法:nohup Command [ Arg ... ] [ & ]    描述:nohup 命令運行由 Command 參數和任何相關的 Arg 參數指定的命令

原创 3.mac上的storm開發者環境的安裝部署

storm的安裝依賴 python、zookeeper等,因爲mac下已經有python了,這裏只需要安裝storm和zookeeper即可; 1、下載storm的release版本, 解壓,並且把bin/目錄加到環境變量PATH

原创 6.mr中理解分區和分組

1.MapReduce中數據流動 (1)最簡單的過程:  map - reduce (2)定製了partitioner以將map的結果送往指定reducer的過程: map - partition - reduce (3)增加了在本地先進

原创 4.MR老版流程源碼解析

一個完整的Hadoop MapReduce過程可以描述如下: Client端提交MapReduce Job到JobTracker;JobTracker調度Job, 生成MapTask和ReduceTask;各TaskTracker接收

原创 2.MR理論概念

下面我們看官方給出的例子: 1:將Block塊分割成三個Split 2:每個Split對應一個mapper 3: 三個mapper輸出結果進行Shuffling,每個map的輸出只是簡單的key-value而非ke

原创 10.整體瞭解storm(補充)

4.  項目實施,構建Topology       當下情況我們需要給Spout和Bolt設計一種能夠處理大量數據(日誌文件)的topology,當一個特定數據值超過預設的臨界值時促發警報。使用Storm的topology,逐

原创 1.why MR?

Why MapReduce? 一.將計算移動到數據 二.Divide and Conquer(分而治之): MapReduce執行流程: Map 映射分發 Reduce 聚合 傻逼圖: 好圖: Yarn執行

原创 3.hadoop中的序列化

序列化的三種主要途徑 作爲一種序列化格式:一個對象序列化以後,它的編碼可以被存儲到磁盤上,供以後反序列化使用 作爲一種通信數據格式:序列化結果可以從一個正在運行的虛擬機,通過網絡被傳遞到另一個虛擬機上 作爲一種拷貝、克隆機制:將對象

原创 10.整體瞭解storm:概念、組件、場景、代碼實現

問題導讀 1.什麼是storm? 2.storm包含哪些組件? 3.storm場景有哪些? 簡單和明瞭,Storm讓大數據分析變得輕鬆加愉快。 當今世界,公司的日常運營經常會生成TB級別的數據。數據來源囊括了互聯網裝置

原创 5.MR多文件的輸入輸出

1.舊API: org.apache.hadoop.mapred.lib.MultipleOutputFormat||MultipleInputFormat和org.apache.hadoop.mapred.lib.MultipleOu

原创 8.storm中不同的流分組方式

package backtype.storm.topology; import backtype.storm.generated.GlobalStreamId;import backtype.storm.generated.Groupi

原创 6.hadoop中rpc中的動態代理的理解

代理模式 抽象角色:真實對象和代理對象的共同接口 代理角色:祕書 真實角色(被代理角色):局長 實現代理接口&&調用轉發 創建動態代理步驟: 1.創建一個實現接口InvocationHandler的類,它必須實現

原创 5.對於RMI的理解

下面我將介紹一個完整的實例,讓初學者能快速體驗RMI的功用。 分爲以下四個步驟 1. 創建遠程接口及聲明遠程方法(HelloInterface.java) 2. 實現遠程接口及遠程方法(繼承UnicastRemoteObject)(