原创 3.MR輸入格式和分片相關

一個輸入分片(split)就是由單個 map 處理的輸入塊。 每一個map操作只處理一個輸入分片。 每個分片被劃分爲若干個記錄,每條記錄就是一個鍵/值對,map一個接一個地處理每條記錄。 (輸入分片—>若干個記錄—>每條記錄)

原创 4.hadoop中的壓縮

所有的壓縮算法都會考慮時間和空間的權衡 列出一些可以用於Hadoop的常見壓縮格式以及特性 Hadoop壓縮api應用實例 獲得具體的[編碼/解碼]方式 egg1:通過傳入壓縮的方式名反射 egg2:通過文件拓展名獲

原创 11.storm小項目反思

1.促使寫了此篇的理解點: 代碼上: worker1節點上: worker2節點上: 從上面三張圖看出來 topo的代碼中prepare在各自進程開始調用,而兩個節點產生了兩個文件,說明nimbus給兩個節點各自分發

原创 1.hadoop的認識

佔有率:Hadoop57.5%   Hbase23.2%    截至2012年12月23日,Apache Hadoop版本分爲兩代,我們將第一代Hadoop稱爲Hadoop 1.0,第二代Hadoop稱爲Hadoop 2.0。第一代

原创 6.storm開發結合eclipse下的maven

1.現在的eclipse中集成了maven,先去apache下載maven,然後配置下環境變量 2.在eclipse中設置下關聯到本地的maven軟件包路徑 3.新建項目,此時選擇other找到maven的projec

原创 2.hadoop配置信息處理

配置文件概念 一個靈活的系統不可缺少的一部分,雖然重要,卻沒有標準 windows上的配置文件:特殊化的ASCII文件(以”ini”爲文件拓展名) java配置文件:java.util.Properties類,用於處理簡單的

原创 5. storm常用命令(客戶端storm shell)

Commands:activate classpathdeactivatedev-zookeeper drpchelpjar killlistlocalconfvalue logviewernimbusrebalance remoteco

原创 9.關於Strom on Yarn的問題

爲什麼要將storm運行在yarn上? 如何將storm運行在yarn上? Strom on yarn需要注意哪些問題?    1. 背景知識 (1)Storm:一個實時計算框架,與MapReduce離線計算框架互補,分別用

原创 7.虛擬機搭建Storm"真"分佈式環境心的得

搭建過程 全過程拆分爲: zookeeper搭建+storm搭建 zookeeper搭建:參考zookeeper筆記中的分佈式搭建(2.安裝及配置介紹)+storm搭建:參考文中底部的拓展鏈接(3.mac上的開發者環境的安裝部署