原创 大數據之六 hadoop MapReduce原理

MapReduce簡介 MapReduce是hadoop四大組件之一(HDFS,MapReduce,YARN和Comment),是一種分佈式計算編程模型,用於解決海量數據的計算問題。 MapReduce思想原理 MapReduce

原创 大數據之七 hadoop MapReduce架構

上一篇中,我們瞭解了MapReduce的執行過程,今天我們來看一下MapReduce的實現架構 MapReduceV1 MapReduce採用 Master/Slave 架構,在hadoop1.x版本中,由全局唯一的 JobTra

原创 大數據之八 hadoop MapReduce on YARN--WordCount

前兩篇中,我們瞭解了MapReduce的執行流程及其架構實現,今天我們就在本地通過經典實例WordCount來了解一下MapReduce的編程實現 YARN集羣配置 首先我們按照大數據之四 hadoop HDFS HA 高可用

原创 大數據十二 spark集羣

Spark 運行模式 Spark 支持四種運行模式: Local 使用本地線程模擬,多用於測試 Standalone spark默認支持的 YARN 最具前景 Mesos Spark 集羣提

原创 大數據之五 hadoop HDFS HA集羣客戶端+eclipse(java API)配置

搭建好HDFS HA集羣后,我們來配置客戶端,用來操作HDFS HA集羣 搭建HDFS HA集羣參看 大數據之四 hadoop HDFS HA 高可用的完全分佈式 客戶端+eclipse(java API)配置 首先我們選擇一臺

原创 大數據十三 spark執行過程

名詞認識 Master:資源管理的主節點 Worker:資源管理的從節點 Executor:執行任務的進程 ThreadPool:線程池 存在於Executor進程中 Driver:任務調度負責者 Application:用戶寫

原创 大數據十一 Spark

spark簡介 Spark 是專爲大規模數據處理而設計的快速通用的計算引擎 Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,是一種“On

原创 大數據十二 spark集羣搭建

Spark standalone 到官網下載 spark 的安裝包,這裏使用 spark-1.6.3,hadoop版本是 2.6.5 解壓,改名爲 spark-1.6.3 進入 conf 目錄下,使用如下命令 cp

原创 大數據之九 Hive

Hive簡介 Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射成一張數據庫表,並提供類SQL(HQL)查詢功能,適用於離線的批量數據計算 Hive本身不存儲和計算數據,它完全依賴於HDFS和MapReduce,

原创 大數據之八 hadoop MapReduce-WordCount

前兩篇中,我們瞭解了MapReduce的執行流程及其架構實現,今天我們就在本地通過經典實例WordCount來了解一下MapReduce的編程實現 集羣配置 首先我們按照大數據之四 hadoop HDFS HA 高可用的完全分佈式

原创 大數據之六 hadoop MapReduce

MapReduce簡介 MapReduce是hadoop四大組件之一(HDFS,MapReduce,YARN和Comment),是一種分佈式計算編程模型,用於解決海量數據的計算問題。 MapReduce思想原理 MapReduce採用

原创 大數據之七 hadoop MapReduce-YARN

上一篇中,我們瞭解了MapReduce的執行過程,今天我們來看一下MapReduce的實現架構 MapReduceV1 MapReduce採用 Master/Slave 架構,在hadoop1.x版本中,由全局唯一的 JobTrack

原创 大數據之五 hadoop HDFS HA集羣客戶端+eclipse配置

搭建好HDFS HA集羣后,我們來配置客戶端,用來操作HDFS HA集羣 搭建HDFS HA集羣參看 大數據之四 hadoop HDFS HA 高可用的完全分佈式 首先我們選擇一臺客戶機,任意選擇,只要能與集羣通信即可,這裏就使用真

原创 大數據之二 hadoop HDFS集羣僞分佈式搭建

僞分佈式 一臺服務器上啓動多個進程來表示多個角色(角色=進程) 僞分佈式模式安裝和配置步驟 配置hosts文件 主機名修改爲:node01 通過修改/etc/sysconfig/network文件,修改計算機名稱爲node01 [

原创 大數據之一 hadoop HDFS分佈式文件系統

什麼是大數據 在短時間內快速產生的海量的各種各樣的有價值的數據 大數據的核心技術 分佈式存儲+分佈式計算 hadoop Hadoop是目前大數據常用的,一個能夠對大量數據進行分佈式處理的軟件框架。 Hadoop框架最核心的設計是 HD