原创 (第2篇)一篇文章教你輕鬆安裝hadoop

   如果你看了我的上一篇文章,那此時你對hadoop已經有了一個大概的瞭解,那接下來這篇文章就教大家怎麼安裝hadoop環境,只要你用心,仔細的跟着文章中講到的做,肯定能正確安裝。      安裝hadoop環境由於大家在學習hadoop

原创 (第7篇)靈活易用易維護的hadoop數據倉庫工具——Hive

   Hivehive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,Hive 定義了簡單的類 SQL 查詢語言,稱爲 HQL,它允許熟悉 SQL 的用戶查詢數據可以將 sql語句

原创 (第6.1篇)大數據發展背後的強力推手——HBase分佈式存儲系統

前面的文章我們介紹了HDFS文件系統、Mapreduce計算框架、Zookeeper協作服務今天我們介紹可在廉價PC Server上搭建起大規模結構化存儲集羣的分佈式存儲系統——HBase。 HBaseHBase – Hadoop Data

原创 弄清Spark、Storm、MapReduce的這幾點區別才適合學習大數據

很多初學者在剛剛接觸大數據的時候會有很多疑惑,比如對MapReduce、Storm、Spark三個計算框架的理解經常會產生混亂。哪一個適合對大量數據進行處理?哪一個又適合對實時的流數據進行處理?又該如何來區分他們呢?我對比整理了這3個計算框

原创 認清Hadoop和Spark的這幾點區別,學習時才能事半功倍

很多初學Hadoop開發的同學分不清Hadoop和Spark究竟有什麼聯繫?搞不清Hadoop和Spark是兩個獨立的框架,還是必須相互依存才能完成工作?今天就給大家分析一下Hadoop和Spark幾點區別。Hadoop和Spark各是什麼

原创 (第4篇)hadoop之魂--mapreduce計算框架,讓收集的數據產生價值

通過前面的學習,大家已經瞭解了HDFS文件系統。有了數據,下一步就要分析計算這些數據,產生價值。接下來我們介紹Mapreduce計算框架,學習數據是怎樣被利用的。Mapreduce計算框架如果將Hadoop比做一頭大象,那麼MapReduc

原创 (第5篇)避免協作衝突--簡單易接入的Zookeeper

 上一篇文章我們詳細介紹了mapreduce計算框架,此時你已經瞭解hadoop集羣的數據處理方式,接下來我們講解分佈式的,開源的,應用於分佈式應用的協作服務的--Zookeeper。      衆所周知,分佈式的系統協作服務很難有讓人滿意

原创 (第3篇)HDFS是什麼?HDFS適合做什麼?我們應該怎樣操作HDFS系統?

    HDFS文件系統Hadoop 附帶了一個名爲 HDFS(Hadoop分佈式文件系統)的分佈式文件系統,專門存儲超大數據文件,爲整個Hadoop生態圈提供了基礎的存儲服務。本章內容:1) HDFS文件系統的特點,以及不適用的場景2) 

原创 (第8篇)實時可靠的開源分佈式實時計算系統——Storm

流式計算解決方案-Storm在Hadoop生態圈中,針對大數據進行批量計算時,通常需要一個或者多個MapReduce作業來完成,但這種批量計算方式是滿足不了對實時性要求高的場景。Storm是一個開源分佈式實時計算系統,它可以實時可靠地處理流

原创 (第6.2篇)大數據發展背後的強力推手——HBase分佈式存儲系統

本篇接着6.1 繼續講HBase。    4. Hbase容錯與恢復 每個HRegionServer中都有一個HLog對象,HLog是一個實現Write Ahead Log的類,在每次用戶操作寫入MemStore的同時,也會寫一份數據到HL

原创 (第1篇)什麼是hadoop大數據?我又爲什麼要寫這篇文章?

前言這些天,有很多人諮詢我大數據相關的一些信息,覺得大數據再未來會是一個朝陽行業,希望能儘早學會、入行,借這個機會,我決定寫一下關於大數據的知識和我這些年的感悟。點擊鏈接  http://ijiajia.blog.51cto.com 訪問我