原创 flume

flume是一個分佈式的數據收集系統,具有高可靠、高可用、事務管理、失敗重啓等功能。數據處理速度快,完全可以用於生產環境。 flume的核心是agent。agent是一個java進程,運行在日誌收集端,通過agent接收日誌,然後暫存

原创 hive

1.Hive Hive是建立在 Hadoop  上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop  中的大規模數據的機制。Hive定義了簡單的類 SQ

原创 Zookeeper

»Zookeeper 是 Google 的Chubby一個開源的實現,是Hadoop的分佈式協調服務 »它包含一個簡單的原語集,分佈式應用程序可以基於它實現同步服務,配置維護和命名服務等 爲什麼使用Zookeeper? »大部分分佈式應用

原创 dfsadmin命令

 -setQuota [num]  限制文件夾下文件數量   -count -q  查看 quoto大小   -clrQuota  清空限制         -setSpaceQuota  限制空

原创 hadoop啓動命令

1,分別啓動hdfs 和yarn 先啓動HDFS   sbin/start-dfs.sh 或者  分別啓動  sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh star

原创 hadoop2基本概念

hadoop版本    Apache  Cloudera  Hortonworks  MapR  intel   hadoop2 通用 hdfs yarn MapReduce hadoop1 hdfs mapreduce hadoop2

原创 hdfs命令

bin/hdfs dfs命令 appendToFile Usage: hdfs dfs -appendToFile <localsrc> ... <dst> 追加一個或者多個文件到hdfs制定文件中.也可以從命令行讀取輸入. · hdfs

原创 基於jtopo實現拖拽和連線

</pre>上代碼:<p></p><p></p><p>jtopoDemo.html</p><p></p><pre name="code" class="html"><!DOCTYPE html> <html> <head>

原创 Shuffle

map 端 1.每個map有一個環形內存緩衝區,用於存儲任務的輸出。默認大小100MB(io.sort.mb屬性),一旦達到閥值0.8(io.sort.spill.percent),一個後臺線程把內容寫到(spill)磁盤的指定目錄(ma

原创 自定義ArrayWritable

*主要在 重寫 readFields 時要定義values的長度,我在這卡了很久。 public static class MyMapper extends Mapper<LongWritable,Text,Text,IntArrayWr

原创 hadoop 2.4/6 僞分佈安裝

1.準備Linux環境  1.0點擊VMware快捷方式,右鍵打開文件所在位置 -> 雙擊vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 設置網段:192.168.8.0 子網掩碼:255.2

原创 Pig

1.Pig是基於hadoop的一個數據處理的框架。    MapReduce是使用java進行開發的,Pig有一套自己的數據處理語言,Pig的數據處理過程要轉化爲MR來運行。 2.Pig的數據處理語言是數

原创 hdfs 要注意的幾個問題

1.分佈式文件系統是位於操作系統之上的一層文件管理系統。 2.HDFS中的數據存儲,在用戶看來,非常類似於linux的文件管理——樹狀的目錄結。 3.hdfs中的文件內容是可以追加的. 4.啓動HDFS進程的用戶是超級用戶,不受任何權限限

原创 IOException: Type mismatch in key from map的處理

  一、錯誤描述     執行MR出現如下錯誤,如執行命令是: bin/hadoop jar /xxx/jar.jar 錯誤如下:  INFO mapreduce.Job: Task Id : attempt_140194

原创 分佈式計算基礎

數據採集:  flume NG  kafka   數據存儲:  HDFS  HBase  Hive  Solr  Ealstic search   數據分析:  MapReduce  Storm  Spark  Hive  Pig  M