原创 PriviledgedActionException as:root (auth:SIMPLE) cause:0: No such file or directory

剛學MapReduce. 寫WordCount的代碼(代碼沒問題的情況下) , 運行後報錯: 錯誤代碼 19/11/12 07:57:19 INFO Configuration.deprecation: session.id is

原创 refreshNodes: Call From X/IP to X:端口號 failed on connection exception:拒絕訪問

問題描述 增加新節點刷新時 , 在主節點 執行以下命令刷新namenode hdfs dfsadmin -refreshNodes Refresh nodes successful 出現如下問題: [root@kk1 hadoop

原创 詳解HDFS文件讀寫流程

文件寫入過程 詳細步驟解析: client發起文件上傳請求,通過RPC與NameNode建立通訊,NameNode檢查目標文件是否已存在,父目錄是否存在,返回是否可以上傳 client請求第一個block該傳輸到哪些DataN

原创 大數據爲什麼那麼快?

傳統數據與大數據處理方式對比 擴展性 傳統的是縱向擴展:服務器數量不發生變化,配置越來越高。 大數據橫向擴展:服務器數量越來越多,配置不發生變化。 分佈式 傳統的方式資源(CPU、內存、硬盤)集中 大數據方式資源(CPU、內存、硬

原创 Linux中CDH版本Hadoop重新編譯

爲什麼要編譯Hadoop 由於CDH的所有安裝包版本都給出了對應的軟件版本,一般情況下是不需要自己進行編譯的,但是由於CDH給出的Hadoop的安裝包沒有提供帶C程序訪問的接口,所以我們在使用本地庫(本地庫可以用來做壓縮,以及支持

原创 Linux安裝Hadoop集羣超詳細教程

環境:CentOS6.9+hadoop-2.6.0 安裝環境服務部署規劃 注 : 代碼已全部標註 第一步:上傳壓縮包並解壓 將我們重新編譯之後支持snappy壓縮的Hadoop包上傳到第一臺服務器並解壓(如果沒有重新編譯的文件可

原创 hadoop不生成tmp解決辦法

解決辦法: 代碼里加入: conf.set("hadoop.tmp.dir","自己的路徑名") 如:conf.set("hadoop.tmp.dir","E:\\tmp\\hadoop-abc");

原创 MapReduce入門介紹及WordCount代碼實現

文章目錄1.MapReduce計算模型介紹1.1理解MapReduce思想1.2.Hadoop MapReduce設計構思1.3.MapReduce框架結構2.MapReduce編程規範及示例編寫2.1.編程規範2.2.WordC

原创 如何自定義InputFormat合併小文件

需求 無論hdfs還是mapreduce,對於小文件都有損效率,實踐中,又難免面臨處理大量小文件的場景,此時,就需要有相應解決方案 分析 小文件的優化無非以下幾種方式: 1、在數據採集的時候,就將小文件或小批數據合成大文件再上傳H

原创 Flume簡介及安裝部署

在一個完整的離線大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架,如圖所示:

原创 Hadoop如何開啓JobHistoryServer

進入Hadoop的sbin目錄下,輸入 : ./mr-jobhistory-daemon.sh start historyserver 再次輸入JPS查看是否打開

原创 java.io.IOException: Illegal partition for 18271575951

出現原因: 在進行分區的時候 , 執行代碼 出現如下錯誤: java.lang.Exception: java.io.IOException: Illegal partition for 18271575951 (2) 解決辦法

原创 HDFS新增節點與刪除節點具體操作流程

服役新數據節點 需求基礎: 隨着公司業務的增長,數據量越來越大,原有的數據節點的容量已經不能滿足存儲數據的需求,需要在原有集羣基礎上動態添加新的數據節點。 準備新節點 第一步:複製一臺新的虛擬機出來 將我們純淨的虛擬機複製一臺出來

原创 HDFS的小文件合併成大文件

前提: 在實際項目中,輸入數據往往是由許多小文件組成,這裏的小文件是指小於HDFS系統Block大小的文件(默認128M), 然而每一個存儲在HDFS中的文件、目錄和塊都映射爲一個對象,存儲在NameNode服務器內存中,通常佔用

原创 自定義InputFormat合併小文件

需求 無論hdfs還是mapreduce,對於小文件都有損效率,實踐中,又難免面臨處理大量小文件的場景,此時,就需要有相應解決方案 分析 小文件的優化無非以下幾種方式: 1、在數據採集的時候,就將小文件或小批數據合成大文件再上傳H