Hadoop集羣搭建及Hive的安裝與使用

1、集羣安裝與配置

以centos爲例，首先創建4臺虛擬機，分別命名爲hp001、hp002、hp003、hp004。

安裝成功後，然後分別修改主機名（hp002、hp003、hp004同hp001）。

vim /etc/sysconfig/network # 編輯network文件修改

hostname hp001

cat /etc/sysconfig/network

NETWORKING=yes

HOSTNAME=hp001

再修改/etc/hosts文件（hp002、hp003、hp004同hp001），本機IP對應主機名。

二、shell腳本編寫

1、配置ssh

注意在root賬號下創建，否則沒有權限。

1)安裝ssh

yum apt-get install ssh

2)生成密鑰對

ssh-keygen –t rsa –P ‘’ –f ~/.ssh/

cd ~/.ssh

3)導入公鑰數據到授權庫中

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

scp /root/.ssh/* hp002@:/root/.ssh/

scp /root/.ssh/* hp003@:/root/.ssh/

scp /root/.ssh/* hp004@:/root/.ssh/

4)登錄其他機器：

ssh hp002

Ifconfig

2、scp

3、rsync 遠程同步工具主要備份和鏡像支持鏈接，設備。

rsync –rvl /soft/* hadoop@hp002:/soft

4、自定義腳本xsync，在集羣上分發文件，循環複製文件到所以節點的相同目錄下,

在hp001主機上/usr/loca/bin下創建xsync文件

然後 vi xsync編寫如下代碼保存

#!/bin/bash

pcount=$#

if(( pcount<1 )) ; then

echo no args;

exit;

#獲取文件名稱

p1=$1;

fname=`basename $p1`;

dname=`cd -P $(dirname $p1) ; pwd`

curse=`whoami`;

for(( host=2 ; host<5; host=host+1 )) ; do

echo ===================== copy to hp00$host ============

rsync -rvl $dname/$fname $curse@hp00$host:$dname;

done

echo ========================== end =====================

4、編寫/usr/local/bin/xcall腳本，在所有主機上執行相同的命令。

例如：xcall rm –rf /soft/jdk

在hp001主機上/usr/loca/bin下創建xcall文件

然後 vi xcall編寫如下代碼保存

#!/bin/bash

pcount=$#

if(( pcount<1 )) ; then

echo no args;

exit;

echo =========== localhost =========

for(( host=2 ; host<5; host=host+1 )) ; do

echo ===================== exe hp00$host ============

ssh hp00$host $@

done

echo ========================== end =====================

三、各主機jdk安裝

1、下載jdk上傳到hp001上

jdk_1.8.0_131.tar.gz

tar -zxvf jdk_1.8.0_131.tar.gz到/usr/local/jdk目錄下

然後用xsync命令分別在hp002、hp003、hp004創建/usr/local/jdk目錄，用xcall

命令分別複製到hp002、hp003、hp004。

2、配置jdk環境變量，etc/profile文件中

export JAVA_HOME=/usr/local/jdk

export PATH=.:$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JRE_HOME=$JAVA_HOME/jre

用xcall命令分別複製到hp002、hp003、hp004的etc/profile文件中。

3、驗證安裝是否成功

四、Hadoop集羣搭建

1、本機集羣機器：四臺對應hadoop1、hadoop2、hadoop3、hadoop4

hadoop1 node1作爲名稱節點

hadoop2 node2作爲輔助名稱節點

hadoop3 node3作爲數據節點

hadoop4 node4作爲數據節點

2、安裝hadoop

創建目錄/home/hadoop/bigdata/，下載hadoop-2.7.2.tar.gz，上傳解壓tar -zxvf hadoop-2.7.2.tar.gz。用xcall命令分別複製到hp002、hp003、hp004。

3、配置環境變量etc/profile文件中

export HADOOP_HOME=/home/hadoop/bigdata/hadoop-2.7.2

export PATH=.:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

用xcall命令分別複製到hp002、hp003、hp004的etc/profile文件中。

4、驗證安裝成功

hadoop version

5、hadoop集羣配置

完全分佈式配置方式：配置文件/home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop/下的四個xml文件。

core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/bigdata</value>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

</configuration>

mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

/home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop/slaves文件修改爲

hp003

hp004

在集羣上分發以上5個文件

cd /home/hadoop/bigdata/hadoop-2.7.2/etc/hadoop

xsync core-site.xml

xsync hdfs-site.xml

xsync mapred-site.xml

xsync yarn-site.xml

xsync slaves

6、首次啓動hadoop

1)格式化文件系統

$>hadoop namenode -format

2)啓動所有進程

$>start-all.sh

3)查詢進程

$>xcall jps

4)停止所有進程

$>stop-all.sh

5)查看文件系統

$hadoop fs -ls

6)創建文件系統

$>hadoop fs –mkdir –p /user/Ubuntu/data

$>hadoop fs –ls –R /

7、Hadoop包含三個模塊

1)Hadoop common：

支持其他模塊的工具模塊

2)Hadoop Distributed File System (HDFS)

分佈式文件系統，提供了對應用程序數據的高吞吐量訪問。

進程：

NameNode 名稱節點NN

DataNode 數據節點DN

SecondaryNamenode 輔助名稱節點2ndNN

3)Hadoop YARN：

作業調度與集羣資源管理的框架。

進程

ResourceManager 資源管理 — RM

NodeManager 節點管理器—NM

4)Hadoop MapReduce:

基於yarn系統的對大數據集進行並行處理技術。

8、使用webui訪問hadoop hdfs

1) hdfs http:/hp001:50070

2) dataNode http://hp003:50075

3) 2nn http://hp002:50090

五、hive安裝與使用

1、下載hive

下載apache hive -2.3.4.bin.tar.gz

2、安裝hive

cd /home/hadoop/bigdata/

tar -zxvf Apache Hive -2.3.4.bin.tar.gz

ln -s apache hive -2.3.4.bin apache hive

3、配置環境變量etc/profile文件中

export HIVE_HOME=/home/hadoop/bigdata/apache-hive

export PATH=.:$HIVE_HOME/bin:$PATH

4、查看是否安裝成功

hive --version

6、配置hive

修改/home/hadoop/bigdata/apache-hive/conf/hive-env.sh文件指定hadoop目錄

/home/hadoop/bigdata/apache-hive/conf/hive-default.xml.template 默認配置文件不要修改,創建hive-site.xml：/home/hadoop/bigdata/apache-hive/conf/hive-site.xml，替換hive-site.xml中${system:java.io.temp.dir}=/home/hadoop/bigdata/apache-hive。

7、配置Hive元數據庫

Hive使用rdbms存儲元數據，內置derby數據庫。在/home/hadoop/bigdata/apache-hive/bin/目錄下初始化schema庫，要啓動hadoop集羣：

Schematool --initSchema -dbType derby

8、hive啓動

1、進入hive shell

$hive啓動後如下圖。

2、Hive元數據庫mysql使用及常用命令

Hive配置

Hive常見命令類似於mysql，本例子用mysql作爲hive元數據庫，首先配置hive-sxit.xml的mysql數據庫驅動信息。

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://192.168.0.100:3306/hivedb</value>

JDBC connect string for a JDBC metastore.

To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.

For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.

</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

<name>javax.jdo.option.ConnectionUserName</name>

<description>Username to use against metastore database</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<description>password to use against metastore database</description>

</property>

Mysql數據庫配置

1)創建數據庫hivedb

2)賦予hive連接mysql用戶的權限

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456789' WITH GRANT OPTION

3) 將mysql的驅動包放到hive下

放在/home/hadoop/bigdata/apache-hive/lib/下

4)使用schematool初始化元數據。

schematool --initSchema -dbType mysql

HDFS存儲位置配置

Hive配置文件裏要用到HDFS的一些路徑，需要先手動創建。

hadoop fs -mkdir -p /soft/hive/warehouse

hdfs dfs -mkdir -p /soft/hive/tmp

hdfs dfs -mkdir -p /soft/hive/log

hdfs dfs -chmod g+w /soft/hive/warehouse

hdfs dfs -chmod g+w /soft/hive/tmp

hdfs dfs -chmod g+w /soft/hive/log

3、java連接hive

1)啓動hive服務

/home/hadoop/bigdata/apache-hive/bin目錄下執行命令$hive --service hiveserver2 start。

2) java代碼連接hive到mysql中查詢數據

Hive.server2.enable.doAs =false;

Hive.meatstroe.saslenabled=false;

Hive.server2.authentication=none

六、關於電腦配置

電腦配置低了帶不動啊！12GB內存都快用滿了。

電腦配置如下都還可以，但是至少比下圖中的要高才行。

Hadoop集羣搭建及Hive的安裝與使用

1、集羣安裝與配置

三、各主機jdk安裝

四、Hadoop集羣搭建

五、hive安裝與使用

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

厲害了，特斯拉爲即將消失的方向盤做準備

Hadoop集羣搭建及Hive的安裝與使用

開發一款好用的基金助手

iOS自定義彈窗之翻牌動畫—Swift

EDA 架構方案說明書

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結