前言
上一篇文章《從0開始學大數據(1):Parallels Desktop下CentOS系統的安裝和靜態IP地址配置》前面使用虛擬機安裝了centos系統和配置虛擬機的IP靜態地址。今天這章內容主要是對大數據的知識體系有個瞭解並且對Hadoop的運行環境的搭建。
- 大數據生態體系
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
- 推薦系統框架圖
通過上面的兩張PPT,我們應該能看懂大數據的作用就是講用戶的行爲對某個特定商品的行爲習慣變爲數據參數整合後通過IT的技術手段在海量數據中找到有價值導向的數據結果推送給用戶,我們的目的就是學習其中的IT技術工具,下面我們先從Hadoop來說起。
Hadoop
Hadoop的組成
通過上面的思維導圖,我們可以清晰的看見Hadoop的組成。可能其中的技術細節現在還無法看懂,不過我們再心裏面有一個框架,以便於我們後期的學習有一個方向。下面開始講解我們今天的主要目的運行環境的搭建。
Hadoop的運行環境搭建
這節來說下Hadoop的運行環境的搭建,下面我列出一些官網地址信息,這篇文章主要來源於官網信息的教程。
- 官網網址: http://hadoop.apache.org/
- 各個版本的歸檔庫:https://archive.apache.org/dist/hadoop/common/
- Hadoop2.7.2版本詳情介紹:https://hadoop.apache.org/docs/r2.7.2/
創建文件夾
-
更改用戶權限
一般情況下,在一些特定的目錄中需要一些權限來創建文件夾,但是頻繁的去切換到root用戶比較麻煩,通過修改/etc/sudoers
文件來做到當前用戶也能獲取權限的目的。
我們只需要見root的命令操作權限複製一些編寫爲我們的martin
用戶即可,更多細節可以參考這篇文章。查看文章後如果出現error : sudo /etc/sudoer is world writable
的bug,可是使用命令#pkexec chmod 0440 /etc/sudoers
解決。 -
配置文件擁有者
sudo chown martin:martin module/ software/
安裝JDK
- 卸載現有jdk
[martin@hadoop101 opt]$ rpm -qa |grep java
tzdata-java-2018e-3.el7.noarch
java-1.7.0-openjdk-1.7.0.191-2.6.15.4.el7_5.x86_64
javapackages-tools-3.4.1-11.el7.noarch
java-1.7.0-openjdk-headless-1.7.0.191-2.6.15.4.el7_5.x86_64
java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
python-javapackages-3.4.1-11.el7.noarch
java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
上面可以查看到centos7
默認安裝了openjdk1.7.0
和openjdk1.8.0
下面我們通過yum 命令進行卸載。
[root@hadoop101 opt]# yum -y remove java-1.7.0-openjdk-headless.x86_64
[root@hadoop101 opt]# yum -y remove java-1.7.0-openjdk-1.7.0.191-2.6.15.4.el7_5.x86_64
[root@hadoop101 opt]# yum -y remove java-1.8.0-openjdk-headless-1.8.0.181-3.b13.el7_5.x86_64
[root@hadoop101 opt]# yum -y remove java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
- 用filezilla工具將
jdk
、Hadoop 2.7.2.tar.gz
導入到opt目錄下的software文件夾。
工具鏈接:https://pan.baidu.com/s/1vYjJSrEEkraYxxAWv6PtLg 密碼:bay7
- 解壓JDK到/opt/module目錄下
[root@hadoop101 software]# tar -zxvf jdk-7u79-linux-x64.gz -C /opt/module
[root@hadoop101 jdk1.7.0_79]# vi /etc/profile
- 配置環境變量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin
export
關鍵字是聲明全局變量,這句話就是講JAVA_HOME聲明爲全局變量。
PATH
是系統變量,我們需要先將PATH變量的值提取出來,然後後面追加內容就用:
代替,最後將JAVA_HOME變量重新賦值給PATH
變量。
- 啓用
[root@hadoop101 jdk1.7.0_79]# source /etc/profile
- 檢查
[root@hadoop101 jdk1.7.0_79] java -version
安裝Hadoop
- 進入到Hadoop安裝路徑下,解壓壓安裝文件到/opt/module
[root@hadoop101 module]# cd /opt/software/
[root@hadoop101 software]# tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module
- 將hadoop添加到環境變量
修改/etc/profile
,將下面命令添加到文件末尾
#HADOOP
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
- 配置hadoop中的
hadoop-env.sh
[root@hadoop101 etc]# cd /opt/module/hadoop-2.7.2/etc/hadoop
[root@hadoop101 hadoop]# vi hadoop-env.sh
添加絕對路徑,因爲遠程SSH訪問的時候可能拿不到。
結束語
這裏我們就把hadoop全部安裝完成了,總體來說就是安裝jdk和hadoop,下篇文章《從0開始學大數據(3):Hadoop運行模式與官網案例》我們就來學習hadoop的運行模式配置和數據計算案例。