原创 大數據-----Apache Hive【1】

一、Apache Hive 1.Hive 簡介 1.1.什麼是Hive Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供類SQL查詢功能。 本質是將SQL轉換爲MapReduce程序。

原创 大數據 之 謎 之 低級bug

java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, recieved org.apache

原创 HDFS(退役節點),集羣擴展(擴容)節點 圖文詳解,

在HDFS集羣內退役一個集羣分幾步 第一步 在NameNode主節點新添加一個文件 在dfs.hosts.exclude文件內添加需要退役的節點主機名、 第二步 在NameNode主節點的hdfs-site.xml文件添加配置,

原创 大數據概述(二)

版權聲明:本文爲博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明 大數據概述 傳統數據處理介紹 目標: 瞭解大數據到來之前,傳統數據的通用處理模式 數據來源: 1、企業內部管理系統 ,如員工考

原创 大數據 ---分佈式並行計算框架MapReduce

分佈式並行計算框架MapReduce 是指實現某項任務或某項工作從開始到結束的計算過程或流的結構。 遊戲中,目標是計算每組紙條中每個圖形的總個數。一共八個步驟,每個步驟都是計算的一部分,是框架的一部分。 MapReduce計算框架

原创 大數據------namenode故障恢復

secondaryNamenode對namenode當中的fsimage和edits進行合併時,每次都會先將namenode的fsimage與edits文件拷貝一份過來,所以fsimage與edits文件在secondarName

原创 掉線時限參數設置

DataNode進程死亡或者網絡故障造成DataNode無法與namenode通信,namenode不會立即把該節點判定爲死亡,要經過一段時間,這段時間暫稱作超時時長。HDFS默認的超時時長爲10分鐘+30秒。如果定義超時時間爲t

原创 大數據------MapReduce中,Map類 壓縮文件中 InputSplit()作用

瞭解inputSplit Hadoop將MapReduce的輸入數據劃分成等長的小數據塊,稱爲輸入分片(input split)或簡稱爲“分片”。Hadoop爲每個分片構建一個map任務,並由該任務來運行用戶自定義的map函數從而

原创 大數據小筆記——Hadoop入門(上)

Hadoop是什麼? ——Hadoop是一個適合大數據的分佈式存儲和計算平臺。 Hadoop的起源 ——Hadoop最早起源於lucene下的Nutch,Hadoop這個名字不是一個縮寫,而是一個虛構的名字,是由Hadoop之父D

原创 HDFS中DataNode的目錄結構

具體解釋: (1)storageID:存儲id號 (2)clusterID集羣id,全局唯一 (3)cTime屬性標記了datanode存儲系統的創建時間,對於剛剛格式化的存儲系統,這個屬性爲0;但是在文件系統升級之後,該值會更新

原创 大數據---最基本的項目流程(生動形象的比喻)

把大數據項目的流程看作是西紅柿炒雞蛋 種植西紅柿 養只老母雞

原创 大數據 --分佈式計算框架MapReduce介紹

Hadoop組成 Hadoop HDFS:一個高可靠、高吞吐量的分佈式文件系統,對海量數據的存儲。 Hadoop MapReduce:一個分佈式的資源調度和離線並行計算框架。 Hadoop Yarn:基於HDFS,

原创 大數據-Apache Hive【2】

1 Hive與傳統數據庫對比 hive用於海量數據的離線數據分析。 hive具有sql數據庫的外表,但應用場景完全不同,hive只適合用來做批量數據統計分析。 更直觀的對比請看下面這幅圖: 2 Hive 數據模型 Hive中所有

原创 最近網絡上熱詞之 ----=----- 大數據?你瞭解大數據麼!

大數據特點: 主要特點 大數據能做什麼 海量數據背景下 大數據就業崗位 大數據技術

原创 MapReduce簡寫(略解)

解讀WordCount WordCount程序就是MapReduce的HelloWord程序。通過對WordCount程序分析,我們可以瞭解MapReduce程序的基本結構和執行過程。 WordCount設計思路 WordCoun