原创 Hadoop產生原因

對於Hadoop產生的原因,我們從以下三個方面談起: 一、  傳統大規模系統的問題 (1)傳統大規模計算 1.傳統計算受到處理器限制:相對較小的數據量;有很多複雜的處理。  2. 早期的方案:更大的計算機,更快的處理器,更多的內存,但即使

原创 大數據學習的流程方案

大數據成爲了當下發展的一種趨勢,很多人去追求大數據的學習,但是苦於無從下手,今天編者根據自己的經驗系統總結一下大數據學習的方略: 第一步:感性認識,找準思路 (1)看一些大數據發展及應用,瞭解市場形勢 (2)閱讀大數據相關書籍,瞭解知識架

原创 初識Apache Hadoop

        Apache Hadoop是一套用於在由通用硬件構建的大型集羣上運行應用程序的框架。它實現了Map/Reduce編程範型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分佈式文件系(HDFS),

原创 大數據學習一般學什麼

大數據已經成爲發展的趨勢,大數據的培訓學習也就應運而生,可是大數據具體學習什麼內容呢,衆說紛紜: 那麼大數據學習到底應該掌握哪些知識呢,筆者根據自己的經驗總結如下: 學習要根據自身情況來定,如果你是零基礎,那就必須先從基礎java開始

原创 零基礎學習 Hadoop 如何下手

想學習hadoop,可是苦於自己沒有任何的基礎,不知道該如何下手,也不知道自己能不能學會。其實零基礎學習hadoop,沒有想象的那麼困難。曾經我也是一位小白,剛接觸到雲計算,想過培訓,但是培訓機構的選擇也讓我很糾結,就自己開始去摸索學習,

原创 分佈式數據集RDD經典集錦

RDD是spark的核心組成,想要理解spark,就必須瞭解RDD。那麼RDD具有什麼樣的特性,怎麼來創建和應用呢? 一、  RDD(Resilient Distributed Dataset) RDD是一個彈性分佈式數據集,這裏我們解

原创 Hadoop項目規劃:硬件

規劃硬件我們主要介紹兩個方面:一個是Master怎麼規劃,一個是Slave怎麼規劃,選擇是不一樣的。其他規劃諸如容量以及操作系統的選擇也會簡單介紹,對於瞭解Hadoop的操作環境有着重要幫助作用。 首先我們看一下Slave,它是用來存儲數

原创 解密數據分區

 數據分區分爲兩種,動態分區和靜態分區,那麼兩種分區是怎樣創建的呢?它們各自怎麼來使用呢? 一、動態分區 1、從已有的數據動態創建新的分區 2、分區基於最後一個列值自動創建,如果分區不存在,它將被創建; 如果分區存在,將被覆蓋。 二、

原创 Hive和Impala加載和存儲數據功能曝光

Hive與Impala都是構建在Hadoop之上的數據查詢工具,那麼在實際的應用中,它們是如何加載和存儲數據的呢? Hive和Impala存儲和加載表,和所有的關係型數據庫一樣,有自己的數據管理結構,從它的Server到Database再

原创 Spark的函數式編程

 Spark是近年來發展較快的分佈式並行數據處理框架,瞭解和掌握spark對於學習大數據有着至關重要的意義。但是spark依賴於函數單元,它的函數編程過程是怎樣的呢?我們怎麼來應用呢? 一、Spark的函數式編程 Spark依賴於函數單

原创 HDFS

HDFS是Hadoop的分佈式文件系統,但是分佈式文件系統不只是HDFS,如Google的GFS,Spark的Tachyon,他們都是分佈式文件系統。 在這裏談到分佈式文件系統,我們一定要和傳統的文件系統進行區分。傳統的文件系統如Win

原创 在Impala 和Hive裏進行數據分區(1)

進行數據分區將會極大的提高數據查詢的效率,尤其是對於當下大數據的運用,是一門不可或缺的知識。那麼數據怎麼創建分區呢?數據怎樣加載到分區呢? 一、  Impala/Hive按State分區Accounts (1)示例:accounts是非分

原创 Hadoop文件存儲的葵花寶典

文件存儲分行存儲和列存儲,每個存儲格式裏面又分不同的類型,在實際的應用中如何去使用?怎樣去使用?快來圍觀吧! 文件存儲格式,我們在什麼時候去指定呢?比如在Hve和Ipala中去創建表的時候,我們除了指定列和分隔符,在它的命令行結尾有STO

原创 Hadoop核心組件:四步通曉HDFS

Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件上的分佈式文件系統,它提供高吞吐量來訪問應用程序的數據,適合那些有着超大數據集的應用程序,那麼在實際應用中我們如何來操作使用呢? 一、HDFS操作方式: 1、命令行操作 –

原创 數據分析:Hive、Pig和Impala

本文主要分享Hadoop三大分析工具:Hive、Pig和Impala。 Hive和Pig是高級數據語言,基於Mapreduce,底層處理的時候會轉換成Mapreduce去提交,Hive和Pig都是開源的,Hive最初由Facebook開發