Hive metastore三種存儲方式

測試環境下Hive總出問題,metastore的配置有問題。抽了點時間,把Hive的meta數據幾種存儲方式都配置了下。Hive的meta 數據支持以下三種存儲方式,其中兩種屬於本地存儲,一種爲遠端存儲。遠端存儲比較適合生產環境。Hive官方wiki詳細介紹了這三種方式,鏈接爲:Hive Metastore 。

一、使用derby數據庫存儲元數據。

這種方式是最簡單的存儲方式,只需要在hive-default.xml或hive-site.xml做如下配置便可。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
< property >
   < name >javax.jdo.option.ConnectionURL</ name >
   < value >jdbc:derby:;databaseName=metastore_db;create=true</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionDriverName</ name >
   < value >org.apache.derby.jdbc.EmbeddedDriver</ value >
</ property >
 
< property >
   < name >hive.metastore.local</ name >
   < value >true</ value >
</ property >
 
< property >
   < name >hive.metastore.warehouse.dir</ name >
   < value >/user/hive/warehouse</ value >
</ property >
 
< property >
   < name >hive.metastore.warehouse.dir</ name >
   < value >/user/hive/warehouse</ value >
</ property >

使用derby存儲方式時,運行hive會在當前目錄生成一個derby文件和一個metastore_db目錄。這種存儲方式的弊端是在同一個目錄下同時只能有一個hive客戶端能使用數據庫,否則會提示如下錯誤(這是一個很常見的錯誤)。

1
2
3
4
5
hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database 'metastore_db', see the next exception for details.
NestedThrowables:
java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

二、使用本機mysql服務器存儲元數據。這種存儲方式需要在本地運行一個mysql服務器,並作如下配置(下面兩種使用mysql的方式,需要將mysql的jar包拷貝到$HIVE_HOME/lib目錄下)。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
< property >
   < name >hive.metastore.warehouse.dir</ name >
   < value >/user/hive_remote/warehouse</ value >
</ property >
 
< property >
   < name >hive.metastore.local</ name >
   < value >true</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionURL</ name >
   < value >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionDriverName</ name >
   < value >com.mysql.jdbc.Driver</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionUserName</ name >
   < value >root</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionPassword</ name >
   < value >dandan</ value >
</ property >

三、使用遠端mysql服務器存儲元數據。這種存儲方式需要在遠端服務器運行一個mysql服務器,並且需要在Hive服務器啓動meta服務。

1)Hive服務器端配置如下。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
< property >
   < name >hive.metastore.warehouse.dir</ name >
   < value >/user/hive_remote/warehouse</ value >
</ property >
 
   < name >javax.jdo.option.ConnectionURL</ name >
   < value >jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionDriverName</ name >
   < value >com.mysql.jdbc.Driver</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionUserName</ name >
   < value >root</ value >
</ property >
 
< property >
   < name >javax.jdo.option.ConnectionPassword</ name >
   < value >dandan</ value >
</ property >

2)Hive客戶端配置如下。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
< property >
   < name >hive.metastore.warehouse.dir</ name >
   < value >/user/hive_remote/warehouse</ value >
</ property >
 
< property >
   < name >hive.metastore.local</ name >
   < value >false</ value >
</ property >
 
< property >
   < name >hive.metastore.uris</ name >
   < value >thrift://localhost:9083</ value >
</ property >

3)服務進程啓動如下,默認監聽的端口是9083(Hive版本低於0.5的才這樣啓動)。

1
henshao@henshao-desktop:~/hive-0.3.99.1/conf$ $JAVA_HOME/bin/java  -Xmx1024m -Dlog4j.configuration=file://$HIVE_HOME/conf/hive-log4j.properties -Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/ -cp $CLASSPATH:$HADOOP_HOME/hadoop-0.19.2-core.jar org.apache.hadoop.hive.metastore.HiveMetaStore

這裏配置classpath太麻煩了,要把hadoop和hive的jar包都加到classpath上,手動加容易導致依賴錯誤。我寫了一個簡單的腳本,把$HIVE_HOME/lib下的jar全部連起來,用冒號分隔開。腳本代碼如下。

01
02
03
04
05
06
07
08
09
10
11
12
13
#!/bin/bash
 
CLASSPATH=.
 
for dir in $*
do
     for file in ` ls $ dir `
     do
         CLASSPATH=$CLASSPATH:$ dir /$ file
     done
done
 
echo $CLASSPATH

運行時,只需要輸入”./generate_classpath.sh $HIVE_HOME/lib”便可。然後將生成的字符串貼到.bashrc中,賦給CLASSPATH變量。

hive啓動時有一個選項”–config”可以指定包含啓動客戶端用的配置文件的目錄,該目錄下需要有hive-default.xml或hive-site.xml文件。

1
hive --config conf_dir

根據我的實踐發現,其實第二種方法也可以將Hive的元數據保存到一臺遠端服務器上,只要配置好javax.jdo.option.ConnectionURL這個連接串就行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章