原创 Coordinator-wf-mr

通過coordinator調度一個wordcount例子,定時開啓運行時間並且設置調度頻率 job.properties nameNode=hdfs://BPF:9000 jobTracker=BPF:8032 queueName=def

原创 HBase數據導入----improttsv&Bulk Load

HBase本身提供了很多種數據導入的方式,通常有兩種常用方式: 1、使用HBase提供的TableOutputFormat,原理是通過一個Mapreduce作業將數據導入HBase 2、另一種方式就是使用HBase原生Client

原创 flume+mapreduce實戰小練習

需求: 對nginx服務器下的log文件進行收集到HDFS上,然後通過mapreduce對日誌文件進行分析。 我這裏的log文件位於 /var/log/nginx/access.log。 通過打開nginx的頁面進行刷新來模擬用戶訪問,會

原创 Hive初學習:瞭解及配置

背景: 在使用mapreduce時,表現出了以下兩點不便性: MapReduce is hard to program          【八股文】格式編程,三大部分No Schema, lack of query lanaguages

原创 HBase數據導入----improttsv

需求:將HDFS中的每行以tab分隔的測試數據,使用importtsv導入到HBase的表中、 在HBase中創建一個表: create 'student','info' 準備的數據 1001 zhangsan 35 male beiji

原创 Hue配置MySQL查詢的時候提示找不到libmysqlclient.so(ubuntu環境下)

今天換了個linux系統,把原來的hadoop環境考到了新的系統上。然後在線安裝了個MySQL,再測試hue是否可以使用DB查詢時報錯:libmysqlclient.so.20找不到。在usr下找了半天確認沒有這個東西,通過以下方法解決

原创 MapReduce實戰練習四:找出共同好友

需求: 有一個文件保存瞭如下信息: A:B,C,D,F,E,O(代表A的好友有BCDFEO) B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H

原创 Hadoop HA的部署

背景: Hadoop2.0之前,在HDFS集羣中NameNode存在單點故障問題,對於只有一個NameNode的集羣,如果NameNode機器出現問題,則整個集羣將無法使用,直到NameNode重新啓動。NameNode主要在以下兩個方

原创 HBase架構介紹

http://www.cnblogs.com/csyuan/p/6543018.html 1. HBase框架簡單介紹 HBase是一個分佈式的、面向列的開源數據庫,它不同於一般的關係數據庫,是一個適合於非結構化數據存儲的數據庫。另

原创 Workflow-Hive Action

本workflow位於oozie目錄下新創建的一個oozie-apps文件夾下的hive-select文件夾中。 hive-select: 1、job.properties 2、lib文件夾(其中包含了一個mysql的驅動包)

原创 spark小應用二:分組分數排序(SCALA)

需求: 1)按照第一個字段進行分組 2)對分組中的第二個字段進行排序(降序) 3)獲取每個分組Top Key(比如獲取前三個值) 數據: aa 78 bb 98 aa 80 cc 98 aa 69 cc 87 bb 97 cc 8

原创 Spark RDD---api(map&reduce)

RDD簡介 RDD是spark中的抽象數據結構,任何數據在Spark中都被表示爲RDD。RDD可被看成一個數組,但RDD中的數據是可以分區存儲的,能夠分佈在不同的機器上。 Spark應用程序就是把需要處理的數據轉化爲RDD,然後進行一

原创 Hive ----DDL

1、創建數據庫 create database test_db comment 'test database'; create database if not exists test_db comment 'test database

原创 HIVE存儲格式

TextFile Hive默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。 可結合Gzip、Bzip2、Snappy等使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,hive不會對數據進行切分,從而無法對數據進行並行操作。

原创 MapReduce中map與reduce的個數

Map的個數 在map階段讀取數據前,FileInputFormat會將輸入文件分割成split。split的個數決定了map的個數。影響map個數,即split個數的因素主要有:HDFS塊的大小,即HDFS中dfs.block.size