原创 數據集成:Flume和Sqoop

Flume和Sqoop是Hadoop數據集成和收集系統,兩者的定位不一樣,下面根據個人的經驗與理解和大家做一個介紹: Flume由cloudera開發出來,有兩大產品:Flume-og和Flume-ng,Flume-og的架構過於複雜,在

原创 Sqoop新品來了

   Sqoop儘管穩定的應用於生產環境很多年,但是它自身存在的一些缺陷給實際操作帶來了不便。Sqoop2便成爲了研究使用的對象,那麼Sqoop2有什麼優勢呢?    首先我們先來了解一下Sqoop的使用情況,使用Sqoop數據不會出現丟

原创 集成Hadoop到數據中心

集成Hadoop到數據中心主要通過有Hadoop的數據中心與沒有Hadoop的數據中心之間對比,以及使用Hadoop之後帶來的數據流的一些改變等方面進行闡述,對於直觀瞭解Hadoop的應用有着一定作用。 一、典型的沒有Hadoop的數據中

原创 爲什麼使用Hive和Impala

Impala 與Hive都是構建在Hadoop之上的數據查詢工具,但是各有不同側重,那麼我們爲什麼要同時使用這兩個工具呢?單獨使用Hive或者Impala不可以嗎? 一、介紹Impala和Hive (1)Impala和Hive都是提供對

原创 Sqoop導入關係型數據庫-解密Sqoop

Sqoop作爲Hadoop與傳統數據庫之間的橋樑,對於數據的導入導出有着重要作用。通過對Sqoop基本語法以及功能的闡述,深刻解密Sqoop的作用和價值。  一、什麼是Apache Sqoop? Cloudera開發的Apache開源項目

原创 關係型數據庫導入導出絕招出爐

Sqoop作爲數據傳輸的工具,對於Hadoop與傳統數據庫之間數據的傳輸起着橋樑作用,那麼到底如何導入導出數據呢? 第一:使用MapReduce作業來執行導入: (1)Sqoop首先檢查將要導入的表 1、確定主鍵(如果有的話),調用map

原创 Hadoop數據存儲—Hbase

大家都知道Hadoop是一個數據庫,其實說的的就是Hbase。它和我們平常理解的關係型數據庫有什麼區別呢? 1. 它是NoSQL的,它沒有SQL的接口,有自己的一套API。 2. 關係型數據庫可以做彙總,可以進行常規的分析,但是Hbas

原创 mapreduce和spark的原理及區別

Mapreduce和spark是數據處理層兩大核心,瞭解和學習大數據必須要重點掌握的環節,根據自己的經驗和大家做一下知識的分享。   首先了解一下Mapreduce,它最本質的兩個過程就是Map和Reduce,Map的應用在於我們需要數

原创 認識YARN

YARN(Yet Another Resource Negotiator),它是統一的資源管理平臺,是在Hadoop2.0中才出現的一個組件。 YARN是Hadoop的處理層,包含資源管理器和作業調度器。它在它的資源管理器中去分配好隊列

原创 hadoop基礎概念之Hadoop核心組件

認知和學習Hadoop,我們必須得了解Hadoop的構成,我根據自己的經驗通過Hadoop構件、大數據處理流程,Hadoop核心三個方面進行一下介紹: 一、       Hadoop組件 由圖我們可以看到Hadoop組件由底層的Had