原创 Flume+Hbase--採集和儲存日誌數據

前言 大數據時代,誰掌握了足夠的數據,誰就有可能掌握未來,而其中的數據採集就是將來的流動資產積累。 幾乎任何規模企業,每時每刻也都在產生大量的數據,但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的

原创 Hadoo總結二:HA高可用性原理

關於Hadoop 2.x的HA: 在Hadoop2.0.0之前,NameNode(NN)在HDFS集羣中存在單點故障(single point of failure),每一個集羣中存在一個NameNode,如果NN所在的機器出現了故

原创 Hadoop總結三:HDFS--Federation

1. 當前HDFS架構和功能概述 我們先回顧一下HDFS功能。HDFS實際上具有兩個功能:命名空間管理(Namespace management)和塊/存儲管理服務(block/storage management)。 1.1 命

原创 Hive筆記九:Hive輸入輸出適配類(CSV,XML)

在最初使用 hive ,應該說上手還是挺快的。 Hive 提供的類 SQL 語句與 mysql 語句極爲相似,語法上有大量相同的地方,這給我們上手帶來了很大的方便,但是要得心應手地寫好這些語句,還需要對 hive 有較好的瞭解,才能結合

原创 Hive筆記七:Hive的數據導出

根據導出的地方不一樣,將這些方式分爲三種:(1)、導出到本地文件系統;(2)、導出到HDFS中;(3)、導出到Hive的另一個表中。爲了避免單純的文字,我將一步一步地用命令進行說明。一、導出到本地文件系統    hive> inser

原创 Hive筆記十:自定義函數UDF和UDAF

Hive進行UDF開發十分簡單,此處所說UDF爲Temporary的function,所以需要hive版本在0.4.0以上纔可以。 一、背景:Hive是基於Hadoop中的MapReduce,提供HQL查詢的數據倉庫。Hive是一個很

原创 Hive筆記八:Hive體系結構

1、Hive架構與基本組成     下面是Hive的架構圖。 圖1.1 Hive體系結構     Hive的體系結構可以分爲以下幾部分:     (1)用戶接口主要有三個:CLI,Client 和 WUI。其中最常用的是CL

原创 NTP服務和時間同步

目標環境,5臺linux centos 6.3, 一臺作爲NTPD服務與外部公共NTP服務同步時間,同時作爲內網的NTPD服務器,其他機器與這臺服務做時間同步。  服務器IP 角色   說明 同步方式  192.168.1.135   

原创 Hadoop總結一:基礎知識-Namenode,Datanode(非HA高可用性配置)

Namenode主要功能:接受客戶端的讀寫服務 Namenode保存metadata信息(元數據)   --文件ownership和permissions   --文件包含哪些快   --Block保存在哪個DataNode上(Datan

原创 Google Protocal Buffer

簡介 什麼是 Google Protocol Buffer? 假如您在網上搜索,應該會得到類似這樣的文字介紹: Google Protocol Buffer( 簡稱 Protobuf) 是 Google 公司內部的混合語言數據標準,

原创 Hadoop總結四:MapReduce工作流程

1.MapReduce作業運行流程 下面貼出我用visio2010畫出的流程示意圖:       流程分析: 1.在客戶端啓動一個作業。 2.向JobTracker請求一個Job ID。 3.將運行作業所需要的

原创 Hbase筆記六:Hbase和傳統關係型數據庫

在說HBase之前,我想再嘮叨幾句。做互聯網應用的哥們兒應該都清楚,互聯網應用這東西,你沒辦法預測你的系統什麼時候會被多少人訪問,你面臨的用戶到底有多少,說不定今天你的用戶還少,明天系統用戶就變多了,結果您的系統應付不過來了了,不幹了,這

原创 Hbase筆記四:Hbase基於Hadoop的完全分佈式安裝

五個節點 node1    backup-master node2    regionserver node3    regionserver node4    regionserver node5    master 安裝前提:  

原创 Hbase筆記二:簡明系統架構

 HBase 系統架構圖      組成部件說明   Client:    使用HBase RPC機制與HMaster和HRegionServer進行通信    Client與HMaster進行通信進行管理類操作    Client與

原创 Hbase筆記五:Hbase和Hive

對於剛接觸大數據的用戶來說,要想區分Hive與HBase是有一定難度的。本文將嘗試從其各自的定義、特點、限制、應用場景等角度來進行分析,以作拋磚引玉之用。  Hive是什麼? Apache Hive是一個構建於Hadoop(分佈式系