原创 Hadoop之機架感知

背景  當沒有配置機架信息時,所有的機器hadoop都默認在同一個默認的機架下,名爲“/default-rack”,這種情況下,任何一臺 datanode機器,不管物理上是否屬於同一個機架,都會被認爲是在同一個機架下,此時,就很容易出現之前

原创 Hadoop之日誌存放路徑

    Hadoop的日誌有很多種,很多初學者往往遇到錯而不知道怎麼辦,其實這時候就應該去看看日誌裏面的輸出,這樣往往可以定位到錯誤。    Hadoop的日誌大致可以分爲兩類:    (1)、Hadoop系統服務輸出的日誌;    (2)

原创 Hive入門到剖析(四)

10 Hive體系架構10.1  概念用戶接口:用戶訪問Hive的入口元數據:Hive的用戶信息與表的MetaData解釋器:分析翻譯HQL的組件編譯器:編譯HQL的組件優化器:優化HQL的組件 10.2  Hive架構與基本組成1、架構圖

原创 Hadoop之安全模式

    在hadoop的實踐過程中,系統啓動的時候去修改和刪除文件有時候會報以下錯誤:    org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input.

原创 Hive入門到剖析(二)

5 Hive參數hive.exec.max.created.files說明:所有hive運行的map與reduce任務可以產生的文件的和默認值:100000 hive.exec.dynamic.partition說明:是否爲自動分區默認值:

原创 Hadoop之生態系統

Hadoop生態系統一、摘要            經過幾年的快速發展,Hadoop現在已經發展成爲包含多個相關項目的軟件生態系統。狹義的Hadoop核心只包括Hadoop Common、Hadoop HDFS和Hadoop MapRedu

原创 Hive入門到剖析(一)

1 Hive簡介1.1 Hive定義Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供類SQL查詢功能。本質是將SQL轉換爲MapReduce程序。 1.2 爲什麼使用Hive1、面臨的問題   

原创 hadoop之HDFS快照管理

前言Snapshot就是快照的意思.Snapshot是一個非常好的東西,一個形象的比喻,快照就好像拍風景照時的那一個瞬間的投影,過了那個時間點之後,又會有新的一個瞬間投影.所以其實Snapshot快照用一個更好的詞來形容就是”瞬間映像“.S

原创 Hadoop之MapReduce性能調優

    基於對這些組件的深入理解,用戶可以很容易通過調整一些關鍵參數使作業運行效率達到最優,本文將分別從Hadoop管理員和用戶角度介紹如何對Hadoop進行性能調優以滿足各自的需求。1 概述Hadoop性能調優是一項工程浩大的工作,它不僅

原创 Hadoop之HDFS讀寫原理

一、HDFS基本概念HDFS全稱是Hadoop Distributed System。HDFS是爲以流的方式存取大文件而設計的。適用於幾百MB,GB以及TB,並寫一次讀多次的場合。而對於低延時數據訪問、大量小文件、同時寫和任意的文件修改,則

原创 Hadoop之小文件存儲優化

     一、概述        首先明確概念,這裏的小文件是指小於HDFS系統Block大小的文件(默認64M),如果使用HDFS存儲大量的小文件,將會是一場災難,這取決於HDFS的實現機制和框架結構,每一個存儲在HDFS中的文件、目錄和

原创 Hadoop之機架感知

背景  當沒有配置機架信息時,所有的機器hadoop都默認在同一個默認的機架下,名爲“/default-rack”,這種情況下,任何一臺 datanode機器,不管物理上是否屬於同一個機架,都會被認爲是在同一個機架下,此時,就很容易出現之前

原创 Hadoop之HDFS之一致性模型

    HDFS某些地方爲了性能可能會不符合POSIX(是的,你沒有看錯,POSIX不僅僅只適用於linux/unix,Hadoop 使用了POSIX的設計來實現對文件系統文件流的讀取),所以它看起來可能與你所期望的不同,要注意。     

原创 Hadoop之HDFS的HA與QJM

本文主要介紹HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性實現HDFS HA。    一、背景    HDFS集羣中只有一個Namenode,這就會引入單點問題;即如果Namenode故障,那麼這

原创 Hadoop之HDFS的edits和fsimage查看器

     在hadoop中edits和fsimage是兩個至關重要的文件,其中edits負責保存自最新檢查點後命名空間的變化,起着日誌的作用,而fsimage則保存了最新的檢查點信息。這個兩個文件中的內容使用普通文本編輯器是無法直接查看的,