Hadoop集羣搭建可參考:http://blog.csdn.net/yanhang0610/article/details/51896545
1 系統環境
系統:CentOS 7.0。
版本:JDK 1.8.0_91,Hadoop 2.7.3,Hive 2.1.1。
2 Hive安裝
安裝Hive前先安裝Hadoop。
Hive是單節點Server,不是分佈式系統。
2.1 下載
下載合適版本的Hive:
http://mirrors.hust.edu.cn/apache/hive
2.2 安裝
解壓即完成安裝:
# tar -xvf hive-x.y.z.tar.gz
解壓後可移動至合適位置。
2.3 設置環境變量
# vi /etc/profile.d/hive.sh
內容:
export HIVE_HOME=hive目錄
export PATH=$HIVE_HOME/bin:$PATH
使配置生效
# . /etc/profile
2.4 創建HDFS目錄
# $HADOOP_HOME/bin/hadoop fs -mkdir /tmp
# $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse
# $HADOOP_HOME/bin/hadoop fs -chmod g+w /tmp
# $HADOOP_HOME/bin/hadoop fs -chmod g+w /user/hive/warehouse
“/user/hive/warehouse”爲配置項“hive.metastore.warehouse.dir”的默認值。
2.5 配置
複製$HIVE_HOME/conf/hive-default.xml.template爲hive-site.xml(不是hive-default.xml)。
2.5.1 元數據庫MetaStore配置
拷貝java的mysql連接驅動jar包(如mysql-connector-java-5.1.8-bin.jar)到$HIVE_HOME/lib下。
配置項參考:http://blog.csdn.net/aaa1117a8w5s6d/article/details/16884401
修改hive-site.xml相關配置項如下:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
</property>
將mysql作爲hive的元數據庫:
# schematool -dbType mysql -initSchema
2.5.2 設置java.io.tmpdir
在合適位置建議一個文件夾,做爲hive的java.io.tmpdir值,如$HIVE_HOME/iotmp目錄。
修改hive-site.xml配置文件,將所有的${system:java.io.tmpdir}/${system:user.name}改爲上面建立的iotmp絕對路徑。
3 運行
Hive日誌文件默認存儲在/tmp/{user.name}目錄下。
3.1 運行Hive CLI
命令行輸入:
# hive
正常的話將成功啓動,進入hive提示符。
4 Java連接Hive
參考:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients#HiveServer2Clients-JDBC
所需jar包(注意,有一個是hadoop的包):
$HADOOP_HOME/share/hadoop/common/hadoop-common-2.7.3.jar
$HIVE_HOME/lib/libthrift-0.10.0.jar
$HIVE_HOME/lib/slf4j-log4j12-1.7.5.jar
$HIVE_HOME/lib/slf4j-api-1.7.5.jar
$HIVE_HOME/lib/log4j-1.2.15.jar
$HIVE_HOME/lib/hive-exec-2.1.1.jar
$HIVE_HOME/lib/hive-jdbc-2.1.1.jar
$HIVE_HOME/lib/hive-metastore-2.1.1.jar
$HIVE_HOME/lib/hive-service-2.1.1.jar
$HIVE_HOME/lib/libfb303-0.9.3.jar
$HIVE_HOME/lib/commons-logging-1.2.jar
$HIVE_HOME/lib/httpclient-4.4.jar
$HIVE_HOME/lib/httpcore-4.4.jar
4.1 Hadoop配置(集羣各服務器需關閉防火牆)
參考:http://blog.csdn.net/fz1989/article/details/51489498
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/Superusers.html
使用Java遠程連接HiveServer時,會出現
java.lang.RuntimeException:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):Userroot is not allowed to impersonateanonymous 錯誤,此時應修改hadoop 配置文件:etc/hadoop/core-site.xml,加入如下配置項:
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
其中紅色部分值(User [用戶名] is not allowed to …)應一致。
4.2 爲Hive連接用戶設置密碼
可選,建議設置密碼。若設置密碼驗證,則jdbc連接hiveserver2時需要填寫正確密碼才能連接成功。Hive一共提供了三種安全認證方式,我們通常採用的爲第三種自定義的方式。
4.2.1 密碼驗證接口實現代碼
自定義密碼驗證需要實現一個接口:org.apache.hive.service.auth.PasswdAuthenticationProvider,一個實現示例如下:
package hive.demo;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import javax.security.sasl.AuthenticationException;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.conf.Configurable;
import org.apache.hadoop.conf.Configuration;
importorg.apache.hive.service.auth.PasswdAuthenticationProvider;
public class MyHiveServerPasswdAuthenticator implementsPasswdAuthenticationProvider, Configurable {
private static final Log LOG = LogFactory.getLog(MyHiveServerPasswdAuthenticator.class);
private Configurationconf =null;
private static final String HIVE_SERVER2_COUSTOM_AUTH_JDBC_PASSWD_PREFIX ="hive.server2.custom_auth.jdbc_passwd.%s";
@Override
public void Authenticate(String userName, String passwd) throwsAuthenticationException {
LOG.info("User:" + userName +" try to login.");
String passwdMD5 = getConf().get(String.format(HIVE_SERVER2_COUSTOM_AUTH_JDBC_PASSWD_PREFIX, userName));
if (passwdMD5 ==null) {
String message = "User'sJDBC password configration is not found. User:" + userName;
LOG.info(message);
throw new AuthenticationException(message);
}
String md5 = MD5.md5(passwd);
if (!md5.equalsIgnoreCase(passwdMD5)) {
String message = "Username and password is mismatch. User:" + userName;
throw new AuthenticationException(message);
}
LOG.info("User " + userName +"login successfully.");
}
@Override
public Configuration getConf() {
if (conf ==null) {
this.conf =new Configuration();
}
returnconf;
}
@Override
public void setConf(Configuration arg0) {
this.conf = arg0;
}
// MD5加密工具類
static class MD5 {
private static MessageDigest digest;
private static char hexDigits[] = {'0','1','2', '3', '4', '5','6','7', '8', '9', 'a','b','c', 'd', 'e', 'f'};
static {
try {
digest = MessageDigest.getInstance("MD5");
} catch (NoSuchAlgorithmException e) {
throw new RuntimeException(e);
}
}
public static String md5(String str) {
byte[] btInput = str.getBytes();
digest.reset();
digest.update(btInput);
byte[] md =digest.digest();
// 把密文轉換成十六進制的字符串形式
int j = md.length;
char strChar[] =newchar[j * 2];
int k = 0;
for (int i = 0; i < j; i++) {
byte byte0 = md[i];
strChar[k++] = hexDigits[byte0 >>> 4 &0xf];
strChar[k++] = hexDigits[byte0 & 0xf];
}
return new String(strChar);
}
}
}
將以上代碼導出jar包後上傳到$HIVE_HOME/lib下。
4.2.2 修改配置
修改配置文件hive-site.xml,啓用密碼驗證:
<property>
<name>hive.server2.authentication</name>
<value>CUSTOM</value>
</property>
<property>
<name>hive.server2.custom.authentication.class</name>
<value>hive.demo.MyHiveServerPasswdAuthenticator</value>
</property>
再添加密碼配置到hive-site.xml中:
<property>
<name>hive.server2.custom_auth.jdbc_passwd.root</name>
<value>e99a18c428cb38d5f260853678922e03</value>
<description/>
</property>
紅色部分爲登錄用戶名,value爲密碼,可以添加多組用戶密碼配置。
4.3 啓動HiveServer2
啓動HiveServer或HiveServer2可使得Java、Python連接Hive服務器提交請求並獲得返回值。HiveServer只支持單客戶端連接,HiveServer2支持多客戶端連接。
先啓動metastore:
# hive --service metastore &
再啓動hiveserver2:
# hive --service hiveserver2 [hive端口] &
HiveServer默認端口爲10000。
4.4 示例連接代碼
package hive.demo;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
public class HiveDemo {
public static void main(String[] args) {
Connection connection = null;
PreparedStatement pstmt = null;
ResultSet rs = null;
try {
// 加載驅動
Class.forName("org.apache.hive.jdbc.HiveDriver");
// 建立連接,其中user和password爲具有hdfs讀寫權限的linux賬號密碼,否則會報Permission denied錯誤
connection = DriverManager.getConnection("jdbc:hive2://192.168.1.210:10000/default","root","abc123");
// 建表
pstmt = connection.prepareStatement(" create table hive_test(id int, name string) rowformat delimited fields terminated by '\t' ");
pstmt.execute();
// 打印表結構
pstmt = connection.prepareStatement(" describe hive_test ");
rs = pstmt.executeQuery();
while (rs.next()) {
System.out.println(rs.getString(1) +"\t" + rs.getString(2));
}
// 導入數據
// pstmt =connection.prepareStatement(" load data localinpath '/root/bigdata/apache-hive-2.1.1-bin/testData.txt'into table hive_test "); //加載本地數據(位於linux集羣服務器本地)
pstmt = connection.prepareStatement(" load data inpath '/hive/testData2.txt' into tablehive_test "); //加載HDFS上的數據
pstmt.execute();
// 查詢
pstmt = connection.prepareStatement(" select * from hive_test ");
rs = pstmt.executeQuery();
while (rs.next()) {
System.out.println(rs.getString(1) +"\t" + rs.getString(2));
}
// 統計
pstmt = connection.prepareStatement(" select distinct(name) from hive_test ");
rs = pstmt.executeQuery();
while (rs.next()) {
System.out.println(rs.getString(1));
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
測試數據:
testData.txt
111 str111
222 str222
333 str333
444 ddd
555 yyy
testData2.txt
2111 str1112
2222 str222
2333 str3332
2444 ddd
2555 yyy2
運行結果(distinct統計結果):
ddd
str111
str1112
str222
str333
str3332
yyy
yyy2
5 常見問題
參考:http://blog.csdn.net/freedomboy319/article/details/44828337
http://www.cnblogs.com/junle/p/6347637.html
http://www.jianshu.com/p/d9cb284f842d