原创 MapReduce-MyOutputFormat

MainTest.javapackage MyoutputFormat; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import

原创 從HDFS讀取文件,把記錄存到Hbase的java API操作

從HDFS讀取文件,文件的數據格式類似如下computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,7

原创 hadoop關鍵進程

hadoop集羣中主要進程有master:   NameNode, ResourceManager,slaves:   DataNode, NodeManager,  RunJar, MRAppMaster,YarnChild其中 Run

原创 hive練習之[影評案例]

現有如此三份數據:1、users.dat    數據格式爲: 2::M::56::16::70072對應字段爲:UserID BigInt, Gender String, Age Int, OccupationString, Zipcod

原创 海量的數據面試題

1、給個超過100G的logfile, log中存着IP地址, 設計算法找到出現次數最多的IP地址?第一題:首先我們的思路就是利用哈希進行文件的切分,我們把100G大小的logfile分爲1000份,那麼下