Hello,我是 Alex 007,一個熱愛計算機編程和硬件設計的小白,爲啥是007呢?因爲叫 Alex 的人太多了,再加上每天007的生活,Alex 007就誕生了。
這篇博客呢,我會詳細介紹怎麼搭建Hadoop生態系統,包括JDK、Zookeeper、Hadoop、HBase、MySQL、Hive、Scala、Spark、Sqoop的安裝。
一、準備工作
版本信息:
更新升級軟件包
yum update
yum upgrade
設置防火牆
關閉防火牆:
systemctl stop firewalld
查看狀態:
systemctl status firewalld
注意:當環境重置之後,防火牆會自動開啓,可以使用如下命令禁止開機自啓:
systemctl disable firewalld
二、JDK安裝
有些平臺已經默認安裝了JDK,可以使用默認的,也可以重新安裝,如果重新安裝需要將原有的JDK卸載。
JDK卸載:
- which java(查看JDK的安裝路徑)
- rm -rf JDK地址(卸載JDK)
- vim /etc/profile(刪除Java環境變量)
- 首先在根目錄下建立工作路徑/usr/java:
mkdir -p /usr/java
- 進入創建的java工作路徑
cd /usr/java
- 從Windows本地將下載好的java安裝包上傳到服務器
jdk文件需要從Oracle官網上下載,如果下載太慢的話也可以從我這裏下載:jdk-8u171-linux-x64.tar.gz。
scp jdk-8u171-linux-x64.tar.gz [email protected]:/usr/java
- 解壓jdk安裝包
tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/java/
- 刪除安裝包
rm -rf /usr/java/jdk-8u171-linux-x64.tar.gz
- 配置環境變量
vim /etc/profile
文件最後添加如下內容:
export JAVA_HOME=/usr/java/jdk1.8.0_171
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME CLASSPATH
- 激活環境變量
source /etc/profile
- 查看java版本
java -version
出現版本信息:
三、ZooKeeper安裝
在集羣的管理中Zookeeper負責分佈式系統的協調工作,不僅適用於Hadoop集羣,在其他的集羣中也常被用到。
Zookeeper主要解決處理分佈式應用的同步和“部分失敗”問題(比如某個關鏈節點宕機了),使集羣更加穩定地工作。
- 創建zookeeper的工作路徑
mkdir -p /usr/zookeeper
cd /usr/zookeeper
- 下載zookeeper
wget http://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz
如果下載太慢的話可以用我提供的鏈接:zookeeper-3.4.10.tar.gz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/zookeeper
tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C /usr/zookeeper
- 刪除軟件包
rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz
- 創建配置中所需的zkdata和zkdatalog兩個文件夾
cd /usr/zookeeper/zookeeper-3.4.10
mkdir zkdata_1 zkdata_2 zkdata_3
mkdir zkdatalog_1 zkdatalog_2 zkdatalog_3
- 配置文件zoo.cfg
將zoo_sample.cfg文件拷貝一份命名爲zoo.cfg,Zookeeper 在啓動時會找這個文件作爲默認配置文件。
cd /usr/zookeeper/zookeeper-3.4.10/conf/
cp zoo_sample.cfg zoo1.cfg
cp zoo_sample.cfg zoo2.cfg
cp zoo_sample.cfg zoo3.cfg
zoo1.cfg內容如下:
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_1
clientPort=2181
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_1
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889
zoo2.cfg內容如下:
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_2
clientPort=2182
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_2
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889
zoo3.cfg內容如下:
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/zookeeper/zookeeper-3.4.10/zkdata_3
clientPort=2183
dataLogDir=/usr/zookeeper/zookeeper-3.4.10/zkdatalog_3
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889
- 創建文件myid
echo "1" > /usr/zookeeper/zookeeper-3.4.10/zkdata_1/myid
echo "2" > /usr/zookeeper/zookeeper-3.4.10/zkdata_2/myid
echo "3" > /usr/zookeeper/zookeeper-3.4.10/zkdata_3/myid
- 配置zookeeper環境變量
vim /etc/profile
添加如下內容:
export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10
PATH=$PATH:$ZOOKEEPER_HOME/bin
- 激活環境變量
source /etc/profile
- 啓動ZooKeeper集羣
開啓服務:
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo1.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo2.cfg
/usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh start zoo3.cfg
查看是否啓動成功:
[root@Alex ~]# jps
14496 Jps
13282 QuorumPeerMain
13255 QuorumPeerMain
13323 QuorumPeerMain
查看狀態:
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo1.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo1.cfg
Mode: follower
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo2.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo2.cfg
Mode: leader
[root@Alex ~]# /usr/zookeeper/zookeeper-3.4.10/bin/zkServer.sh status zoo3.cfg
ZooKeeper JMX enabled by default
Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo3.cfg
Mode: follower
通過上面狀態查詢結果可見,一個節點是Leader,其餘的結點是Follower,至此,zookeeper安裝成功。
四、Hadoop安裝
Hadoop是個分佈式的架構,它將海量數據處理工作分配到集羣中的多個機器上運行。
- 創建hadoop的工作路徑
mkdir -p /usr/hadoop
cd /usr/hadoop
- 下載hadoop
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
如果下載太慢的話可以用我提供的鏈接:hadoop-2.7.3.tar.gz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/hadoop
tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/
- 刪除軟件包
rm -rf /usr/hadoop/hadoop-2.7.3.tar.gz
- 配置環境變量
vim /etc/profile
添加如下內容:
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
- 激活環境變量
source /etc/profile
- hadoop 安裝測試
到此爲止,Hadoop 的安裝就完成了,可以測試一下,直接在命令行輸入:
hadoop version
- 配置Hadoop組件
hadoop的各個組件的都是使用XML進行配置。
主要配置要點就是設定 hadoop 運行過程中存放的臨時目錄、元數據存放位置、mapreduce 所採用的框架等。具體的配置文件存在 hadoop 安裝目錄下的 etc 目錄裏的 hadoop 文件夾中。
8.1 hadoop-env.sh環境配置文件
cd $HADOOP_HOME/etc/hadoop
vim hadoop-env.sh
添加如下內容:
export JAVA_HOME=/usr/java/jdk1.8.0_171
8.2. core-site.xml文件
這個文件用於設定 hadoop 運行過程中臨時文件存放的路徑及 hdfs 通信方式。
vim core-site.xml
添加如下內容:
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://Alex:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>
8.3. hdfs-site.xml文件
這個文件用於設定 hdfs 運行時存放的 name 空間元數據和 data 數據塊路徑。
vim hdfs-site.xml
添加如下內容:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Alex:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
8.4. yarn-site.xml文件
這個文件設置了 yarn 資源管理相關信息。
vim yarn-site.xml
添加如下內容:
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.address</name>
<value>Alex:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Alex:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>Alex:18088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>Alex:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Alex:18141</value>
</property>
<!-- 指定reducer獲取數據的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
8.5. mapred-site.xml文件
hadoop是沒有這個文件的,需要將mapred-site.xml.template樣本文件複製爲mapred-site.xml,對其進行編輯:
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
添加如下內容:
<property>
<!--指定Mapreduce運行在yarn上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
- hadoop名稱節點初始化
hadoop namenode -format
在格式化過程中,對本地磁盤使用配置文件設定的路徑創建名稱節點、臨時文件存放目錄等進行創建。也就是基本上構建了一個 hdfs 的存儲框架。
當沒報錯並出現“Exiting with status 0”的時候,表明格式化成功。
- 開啓hadoop
cd /usr/hadoop/hadoop-2.7.3/
sbin/start-all.sh
- 查看是否啓動成功:
[root@Alex hadoop-2.7.3]# jps
15552 NameNode
16129 Jps
13282 QuorumPeerMain
15670 DataNode
15174 ResourceManager
13255 QuorumPeerMain
13323 QuorumPeerMain
16029 NodeManager
15822 SecondaryNameNode
多出來5個進程:NameNode
、DataNode
、ResourceManager
、NodeManager
、SecondaryNameNode
。
Hadoop分爲HDFS和MapReduce,HDFS爲數據提供了存儲,MapReduce爲數據提供了計算。
NameNode主要負責管理元信息,如文件名,目錄結構,屬性,數據塊存儲位置等等
DataNode負責數據塊的具體存取
SecondaryNameNode是NameNode的輔助工具,有兩個作用,一是鏡像備份,二是日誌與鏡像的定期合併,注意:它並不是NameNode的備份
ResourceManager負責集羣中所有算力的統一管理和分配
NodeManager是每臺機器上的代理,負責容器管理,並監控它們的資源使用情況,以及向ResourceManager提供資源使用報告
啓動進程服務後,就可以使用 hadoop 兩個關鍵的分佈式存儲和分佈式計算的服務了。
如果想關閉掉某個 hadoop 進程,可以使用進程管理裏的 kill 命令。如果關閉所有 hadoop 進程服務,使用 sbin 目錄裏的 stop-all.sh 腳本,如下:
sbin/stop-all.sh
五、HBase安裝
HBase是一個開源的非關係型分佈式數據庫(NoSQL),它參考了谷歌的BigTable建模,實現的編程語言爲 Java。它是Apache軟件基金會的Hadoop項目的一部分,運行於HDFS文件系統之上,爲 Hadoop 提供類似於BigTable 規模的服務。因此,它可以對稀疏文件提供極高的容錯率。
- 創建hbase的工作路徑
mkdir -p /usr/hbase
cd /usr/hbase
- 下載hbase
wget https://archive.apache.org/dist/hbase/1.2.4/hbase-1.2.4-bin.tar.gz
如果下載太慢的話可以用我提供的鏈接:hbase-1.2.4-bin.tar.gz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/hbase
tar -zxvf hbase-1.2.4-bin.tar.gz -C /usr/hbase
- 刪除軟件包
rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz
- 配置hbase-env.sh
cd /usr/hbase/hbase-1.2.4/conf
vim hbase-env.sh
添加如下內容:
export HBASE_MANAGES_ZK=false
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HBASE_CLASSPATH=/usr/hadoop/hadoop-2.7.3/etc/hadoop
一個分佈式運行的Hbase依賴一個zookeeper集羣,所有的節點和客戶端都必須能夠訪問zookeeper。
默認的情況下Hbase會管理一個zookeep集羣,即Hbase默認自帶一個zookeep集羣,這個集羣會隨着Hbase的啓動而啓動,而在實際的商業項目中通常自己管理一個zookeeper集羣更便於優化配置提高集羣工作效率,但需要配置Hbase。需要修改conf/hbase-env.sh裏面的HBASE_MANAGES_ZK 來切換。
這個值默認是true的,作用是讓Hbase啓動的時候同時也啓動zookeeper.在本實驗中,我們採用獨立運行zookeeper集羣的方式,故將其屬性值改爲false。
- 配置hbase-site.xml
<property>
<name>hbase.rootdir</name>
<value>hdfs://Alex:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.Alex</name>
<value>hdfs://Alex:6000</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/usr/zookeeper/zookeeper-3.4.10</value>
</property>
- hadoop配置文件拷入
cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/hdfs-site.xml /usr/hbase/hbase-1.2.4/conf
cp /usr/hadoop/hadoop-2.7.3/etc/hadoop/core-site.xml /usr/hbase/hbase-1.2.4/conf
- 配置環境變量
vim /etc/profile
添加如下內容:
export HBASE_HOME=/usr/hbase/hbase-1.2.4
export PATH=$PATH:$HBASE_HOME/bin
- 激活環境變量
source /etc/profile
- 啓動HBase
bin/start-hbase.sh
- 查看是否啓動成功:
jps
六、MySQL安裝
- 創建mysql的工作路徑
mkdir /usr/mysql
cd /usr/mysql/
- 下載mysql
wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm
- 安裝mysql
yum -y localinstall mysql57-community-release-el7-8.noarch.rpm
yum -y install mysql-community-server
- 啓動mysql服務
重載所有修改過的配置文件:
systemctl daemon-reload
開啓服務:
systemctl start mysqld
開機自啓:
systemctl enable mysqld
- 登錄mysql
安裝完畢後,MySQL會在/var/log/mysqld.log這個文件中會自動生成一個隨機的密碼,獲取得這個隨機密碼,以用於登錄MySQL數據庫。
獲取初密碼:
grep "temporary password" /var/log/mysqld.log
登陸MySQL:
mysql -uroot -p
- 設置MySQL密碼安全策略
設置密碼強度爲低級:
set global validate_password_policy=0;
密碼強度分級如下:
0爲low級別,只檢查長度;
1爲medium級別(默認),符合長度爲8,且必須含有數字,大小寫,特殊字符;
2爲strong級別,密碼難度更大一些,需要包括字典文件。
密碼長度最低長爲4,當設置長度爲1、2、3時,其長度依然爲4。
設置密碼長度:
set global validate_password_length=4;
修改本地密碼:
alter user 'root'@'localhost' identified by '123456';
退出:
\q
- 設置遠程登錄
以新密碼登陸MySQL:
mysql -uroot -p123456
創建用戶:
create user 'root'@'%' identified by '123456';
允許遠程連接:
grant all privileges on *.* to 'root'@'%' with grant option;
添加mysql用戶:
grant all on *.* to hadoop@'%' identified by 'hadoop';
grant all on *.* to hadoop@'localhost' identified by 'hadoop';
grant all on *.* to hadoop@'master' identified by 'hadoop';
刷新權限:
flush privileges;
創建數據庫:
create database hive_1;
退出:
\q
七、Hive安裝
- 創建hive的工作路徑
mkdir -p /usr/hive
cd /usr/hive
- 下載hive
wget https://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz
如果下載太慢的話可以用我提供的鏈接:apache-hive-2.1.1-bin.tar.gz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/hive
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/hive/
- 刪除軟件包
rm -rf apache-hive-2.1.1-bin.tar.gz
- 配置環境變量
vim /etc/profile
添加如下內容:
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
export PATH=$PATH:$HIVE_HOME/bin
- 激活環境變量
source /etc/profile
- 安裝MariaDB
yum install mariadb-server -y
- 配置hive
vim /usr/hive/apache-hive-2.1.1-bin/conf/hive-site.xml
文件內容如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://Alex:3306/hive_1?characterEncoding=UTF-8&useSSL=true&verifyServerCertificate=false</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hadoop</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hadoop</value>
</property>
</configuration>
- 創建mysql-connector的工作路徑
mkdir -p /usr/mysql-connector
cd /usr/mysql-connector
- 下載mysql-connector
wget https://cdn.mysql.com//archives/mysql-connector-java-5.1/mysql-connector-java-5.1.46.tar.gz
- 解壓到/usr/mysql-connector
tar -xzvf mysql-connector-java-5.1.46.tar.gz
- 刪除軟件包
rm -rf mysql-connector-java-5.1.46.tar.gz
- 將mysql的java connector複製到依賴庫中
cp mysql-connector-java-5.1.46-bin.jar /usr/hive/apache-hive-2.1.1-bin/lib/
- 初始化hive元數據庫
schematool -dbType mysql -initSchema
- 啓動並驗證Hive
hive
輸入以下HQL語句:
show databases;
create database hadoop_data;
show databases;
hive> show databases;
OK
default
Time taken: 0.023 seconds, Fetched: 1 row(s)
hive> create database hadoop_data;
OK
Time taken: 0.191 seconds
hive> show databases;
OK
default
hadoop_data
Time taken: 0.039 seconds, Fetched: 2 row(s)
退出:
quit;
八、Scala安裝
- 創建scala的工作路徑
mkdir -p /usr/scala
cd /usr/scala
- 下載scala
wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz
如果下載太慢的話可以用我提供的鏈接:scala-2.11.12.tgz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/scala
tar -zxvf scala-2.11.12.tgz -C /usr/scala
- 刪除軟件包
rm -rf /usr/hbase/hbase-1.2.4-bin.tar.gz
- 配置環境變量
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH
- 激活環境變量
source /etc/profile
- 檢驗是否安裝成功
[root@Alex ~]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
九、Spark安裝
Spark是一個新興的大數據處理的引擎,是分佈式大數據處理的高層次抽象。
提供了除map和reduce之外更多的運算符,這些操作是通過一個稱作彈性分佈式數據集的分佈式數據框架進行的,主要使用內存存儲,用於快速處理。
- 創建spark的工作路徑
mkdir -p /usr/spark
cd /usr/spark
- 下載spark
wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
如果下載太慢的話可以用我提供的鏈接:spark-2.4.0-bin-hadoop2.7.tgz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/spark
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark
- 刪除軟件包
rm -rf /usr/spark/spark-2.4.0-bin-hadoop2.7.tgz
- 複製conf下spark-env.sh文件
cd spark-2.4.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
添加以下內容:
export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop
- 配置spark環境變量
vim /etc/profile
添加以下內容:
export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
- 激活環境變量
source /etc/profile
- 開啓spark環境
/usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh
- 查看是否啓動成功
十、Sqoop安裝
Sqoop是一個命令行界面應用程序,用於在關係數據庫和Hadoop之間傳輸數據。
- 創建sqoop的工作路徑
mkdir -p /usr/sqoop
cd /usr/sqoop
- 下載sqoop
wget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
如果下載太慢的話可以用我提供的鏈接:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,下載到Windows本地然後上傳到服務器。
- 解壓到/usr/sqoop
tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
- 刪除軟件包
rm -rf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
- 配置環境變量
vim /etc/profile
添加如下內容:
export SQOOP_HOME=/usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0 export PATH=$PATH:$SQOOP_HOME/bin
- 激活環境變量
source /etc/profile
- 配置MySQL連接器
cp /usr/mysql-connector/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/lib/
- 配置Sqoop
cp /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env-template.sh /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh
vim /usr/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0/conf/sqoop-env.sh
更改以下內容:
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/usr/hadoop/hadoop-2.7.3
#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/usr/hadoop/hadoop-2.7.3
#set the path to where bin/hbase is available
#export HBASE_HOME=
#Set the path to where bin/hive is available
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin
- 啓動並驗證Sqoop
sqoop help
正確情況,如圖所示:
好了,到此爲止吧,再往下要吐血了。
肝了三天,老鐵們支持一下,給個三連吧。