原创 flume
flume是一個分佈式的數據收集系統,具有高可靠、高可用、事務管理、失敗重啓等功能。數據處理速度快,完全可以用於生產環境。 flume的核心是agent。agent是一個java進程,運行在日誌收集端,通過agent接收日誌,然後暫存
原创 hive
1.Hive Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive定義了簡單的類 SQ
原创 Zookeeper
»Zookeeper 是 Google 的Chubby一個開源的實現,是Hadoop的分佈式協調服務 »它包含一個簡單的原語集,分佈式應用程序可以基於它實現同步服務,配置維護和命名服務等 爲什麼使用Zookeeper? »大部分分佈式應用
原创 dfsadmin命令
-setQuota [num] 限制文件夾下文件數量 -count -q 查看 quoto大小 -clrQuota 清空限制 -setSpaceQuota 限制空
原创 hadoop啓動命令
1,分別啓動hdfs 和yarn 先啓動HDFS sbin/start-dfs.sh 或者 分別啓動 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh star
原创 hadoop2基本概念
hadoop版本 Apache Cloudera Hortonworks MapR intel hadoop2 通用 hdfs yarn MapReduce hadoop1 hdfs mapreduce hadoop2
原创 hdfs命令
bin/hdfs dfs命令 appendToFile Usage: hdfs dfs -appendToFile <localsrc> ... <dst> 追加一個或者多個文件到hdfs制定文件中.也可以從命令行讀取輸入. · hdfs
原创 基於jtopo實現拖拽和連線
</pre>上代碼:<p></p><p></p><p>jtopoDemo.html</p><p></p><pre name="code" class="html"><!DOCTYPE html> <html> <head>
原创 Shuffle
map 端 1.每個map有一個環形內存緩衝區,用於存儲任務的輸出。默認大小100MB(io.sort.mb屬性),一旦達到閥值0.8(io.sort.spill.percent),一個後臺線程把內容寫到(spill)磁盤的指定目錄(ma
原创 自定義ArrayWritable
*主要在 重寫 readFields 時要定義values的長度,我在這卡了很久。 public static class MyMapper extends Mapper<LongWritable,Text,Text,IntArrayWr
原创 hadoop 2.4/6 僞分佈安裝
1.準備Linux環境 1.0點擊VMware快捷方式,右鍵打開文件所在位置 -> 雙擊vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 設置網段:192.168.8.0 子網掩碼:255.2
原创 Pig
1.Pig是基於hadoop的一個數據處理的框架。 MapReduce是使用java進行開發的,Pig有一套自己的數據處理語言,Pig的數據處理過程要轉化爲MR來運行。 2.Pig的數據處理語言是數
原创 hdfs 要注意的幾個問題
1.分佈式文件系統是位於操作系統之上的一層文件管理系統。 2.HDFS中的數據存儲,在用戶看來,非常類似於linux的文件管理——樹狀的目錄結。 3.hdfs中的文件內容是可以追加的. 4.啓動HDFS進程的用戶是超級用戶,不受任何權限限
原创 IOException: Type mismatch in key from map的處理
一、錯誤描述 執行MR出現如下錯誤,如執行命令是: bin/hadoop jar /xxx/jar.jar 錯誤如下: INFO mapreduce.Job: Task Id : attempt_140194
原创 分佈式計算基礎
數據採集: flume NG kafka 數據存儲: HDFS HBase Hive Solr Ealstic search 數據分析: MapReduce Storm Spark Hive Pig M