從0開始學大數據(2):大數據的概論和Hadoop安裝

前言

上一篇文章《從0開始學大數據(1):Parallels Desktop下CentOS系統的安裝和靜態IP地址配置》前面使用虛擬機安裝了centos系統和配置虛擬機的IP靜態地址。今天這章內容主要是對大數據的知識體系有個瞭解並且對Hadoop的運行環境的搭建。

  • 大數據生態體系

大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

在這裏插入圖片描述

  • 推薦系統框架圖
    在這裏插入圖片描述
    通過上面的兩張PPT,我們應該能看懂大數據的作用就是講用戶的行爲對某個特定商品的行爲習慣變爲數據參數整合後通過IT的技術手段在海量數據中找到有價值導向的數據結果推送給用戶,我們的目的就是學習其中的IT技術工具,下面我們先從Hadoop來說起。

Hadoop

Hadoop的組成

在這裏插入圖片描述
通過上面的思維導圖,我們可以清晰的看見Hadoop的組成。可能其中的技術細節現在還無法看懂,不過我們再心裏面有一個框架,以便於我們後期的學習有一個方向。下面開始講解我們今天的主要目的運行環境的搭建。

Hadoop的運行環境搭建

這節來說下Hadoop的運行環境的搭建,下面我列出一些官網地址信息,這篇文章主要來源於官網信息的教程。

創建文件夾

  • 更改用戶權限
    一般情況下,在一些特定的目錄中需要一些權限來創建文件夾,但是頻繁的去切換到root用戶比較麻煩,通過修改/etc/sudoers文件來做到當前用戶也能獲取權限的目的。
    在這裏插入圖片描述
    我們只需要見root的命令操作權限複製一些編寫爲我們的martin用戶即可,更多細節可以參考這篇文章。查看文章後如果出現error : sudo /etc/sudoer is world writable的bug,可是使用命令#pkexec chmod 0440 /etc/sudoers解決。

  • 配置文件擁有者
    sudo chown martin:martin module/ software/在這裏插入圖片描述

安裝JDK

  • 卸載現有jdk
    [martin@hadoop101 opt]$ rpm -qa |grep java
    tzdata-java-2018e-3.el7.noarch
    java-1.7.0-openjdk-1.7.0.191-2.6.15.4.el7_5.x86_64
    javapackages-tools-3.4.1-11.el7.noarch
    java-1.7.0-openjdk-headless-1.7.0.191-2.6.15.4.el7_5.x86_64
	java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
    python-javapackages-3.4.1-11.el7.noarch
    java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64

上面可以查看到centos7默認安裝了openjdk1.7.0openjdk1.8.0下面我們通過yum 命令進行卸載。

[root@hadoop101 opt]# yum -y remove java-1.7.0-openjdk-headless.x86_64
[root@hadoop101 opt]# yum -y remove java-1.7.0-openjdk-1.7.0.191-2.6.15.4.el7_5.x86_64
[root@hadoop101 opt]# yum -y remove java-1.8.0-openjdk-headless-1.8.0.181-3.b13.el7_5.x86_64
[root@hadoop101 opt]# yum -y remove java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
[root@hadoop101 software]# tar -zxvf jdk-7u79-linux-x64.gz -C /opt/module
[root@hadoop101 jdk1.7.0_79]# vi /etc/profile
  • 配置環境變量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin

export關鍵字是聲明全局變量,這句話就是講JAVA_HOME聲明爲全局變量。
PATH是系統變量,我們需要先將PATH變量的值提取出來,然後後面追加內容就用代替,最後將JAVA_HOME變量重新賦值給PATH變量。

  • 啓用
[root@hadoop101 jdk1.7.0_79]# source /etc/profile
  • 檢查
[root@hadoop101 jdk1.7.0_79] java -version

安裝Hadoop

  • 進入到Hadoop安裝路徑下,解壓壓安裝文件到/opt/module
[root@hadoop101 module]# cd /opt/software/
[root@hadoop101 software]# tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module
  • 將hadoop添加到環境變量
    修改/etc/profile,將下面命令添加到文件末尾
#HADOOP
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
  • 配置hadoop中的hadoop-env.sh
[root@hadoop101 etc]# cd /opt/module/hadoop-2.7.2/etc/hadoop
[root@hadoop101 hadoop]# vi hadoop-env.sh

添加絕對路徑,因爲遠程SSH訪問的時候可能拿不到。
在這裏插入圖片描述

結束語

這裏我們就把hadoop全部安裝完成了,總體來說就是安裝jdk和hadoop,下篇文章《從0開始學大數據(3):Hadoop運行模式與官網案例》我們就來學習hadoop的運行模式配置和數據計算案例。

參考鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章