目錄
Greenplum6.x安裝PXF插件目錄 1 安裝Hadoop與Hive的客戶端 1.1 在大數據平臺的主節點(namenode)上打包客戶端 1.2 把文件scp到Greenplum的master節點上 2 Greenplum的master節點解壓文件配置環境變量 2.1 解壓文件 2.2 對文件重命名 2.3 爲 gpadmin配置環境變量 3 PXF安裝 3.1 PXF 初始化 3.2 創建新的文件夾 3.3 修改pxf-env.sh配置文件 3.4 把配置文件複製到目錄下 3.5 PXF 同步文件 3.6 開啓PXF 4 測試PXF 4.1 查看hive與hdfs數據 4.1 測試PXF連接Hive 4.2 測試PXF連接Haddop 5 PXF單節點安裝說明
1 安裝Hadoop與Hive的客戶端
以下實例是在ambari管理的大數據平臺,hdp版本是2.6.5.0
1.1在大數據平臺的主節點(namenode)上打包客戶端
1、登錄到ambari的主節點,登錄hdfs用戶,進入到/usr/hdp/2.6.5.0-292下 2、以此打包安裝好的hadoop與hive與hbase的組件 [hdfs@*** 2.6.5.0-292]$ zip -r hadoop-2.6.zip hadoop [hdfs@*** 2.6.5.0-292]$ zip -r hive-2.6.zip hive [hdfs@*** 2.6.5.0-292]$ zip -r hbase-2.6.zip hbase
1.2把文件scp到Greenplum的master節點上
[hdfs@*** 2.6.5.0-292]$ scp -r hadoop-2.6.zip gpmaster@gpadmin:/home/gpadmin [hdfs@*** 2.6.5.0-292]$ scp -r hive-2.6.zip gpmaster@gpadmin:/home/gpadmin [hdfs@*** 2.6.5.0-292]$ scp -r hbase-2.6.zip gpmaster@gpadmin:/home/gpadmin gpmaster : 主節點的IP地址的映射gpadmin : master節點上的用戶/home/gpadmin : 文件保存的路徑
2 Greenplum的master節點解壓文件配置環境變量
2.1 解壓文件
[gpadmin@*** ~]$ unzip hadoop-2.6.zip [gpadmin@*** ~]$ unzip hive-2.6.zip [gpadmin@*** ~]$ unzip hbase-2.6.zip
2.2 對文件重命名
[gpadmin@*** ~]$ mv hadoop hadoop-2.6 [gpadmin@*** ~]$ mv hive hive-2.6 [gpadmin@*** ~]$ mv hbase hbase-2.6
2.3 爲 gpadmin配置環境變量
在以下文件中加入以下配置 [gpadmin@*** ~]$ vim /home/gpadmin/.bashrc source /usr/local/greenplum-db/greenplum_path.sh export JAVA_HOME=/opt/java/jdk1.8.0_11 export PXF_HOME=/usr/local/greenplum-db-6.1.0/pxf/ export PXF_CONF=/usr/local/greenplum-db-6.1.0/pxf/conf export HADOOP_HOME=/home/gpadmin/hadoop-2.6 export HIVE_HOME=/home/gpadmin/hive-2.6 export HADOOP_CONF_DIR=/home/gpadmin/hadoop-2.6/conf export HIVE_CONF=/home/gpadmin/hive-2.6/conf export GP_HOME=/usr/local/greenplum-db-6.1.0/ export PATH=$JAVA_HOME/bin:$GP_HOME/bin:$PATH export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$HADOOP_CONF_DIR:$HIVE_CONF:$PATH export PATH=$PXF_HOME/bin:$PXF_CONF:$PATH
3 PXF安裝
在greenplum的master節點以gpadmin用戶登錄
3.1 PXF 初始化
[gpadmin@*** ~ ]$ source /home/gpadmin/.bashrc [gpadmin@*** ~ ]$ pxf cluster init 初始化之後會在$PXF_HOME目錄下看到pxf-service新生產的文件夾
3.2 創建新的文件夾
在$PXF_HOME/servers目錄下創建hdp-prod文件夾
在$PXF_HOME/conf/servers目錄下創建hdp-prod文件夾
3.3 修改pxf-env.sh配置文件
[gpadmin@***~]$ cd $PXF_HOME/conf/conf把 export PXF_USER_IMPERSONATION=true 改成 export PXF_USER_IMPERSONATION=false
3.4 把配置文件複製到目錄下
1、把hadoop相關的hdfs-site.xml/core-site.xml/mapred-site.xml/yarn-site.xml 複製到$PXF_HOME/servers/hdp-prod與$PXF_HOME/conf/servers/conf下 2、把hive相關的hive-env.sh/hive-site.xml/mapred-site.xml 複製到$PXF_HOME/servers/hdp-prod與$PXF_HOME/conf/servers/conf下 3、把hbase相關的hbase-env.sh/hbase-site.xml 複製到$PXF_HOME/servers/hdp-prod與$PXF_HOME/conf/servers/conf下
3.5 PXF 同步文件
[gpadmin@***~]$ pxf cluster sync
3.6 開啓PXF
[gpadmin@*** ~]$ pxf cluster start
4 測試PXF
4.1 查看hive與hdfs數據
查看hive中的表hive> use udt;hive> select * from test; OK 1 1 2 2 Time taken: 0.584 seconds, Fetched: 2 row(s) test是在udt的schema下 查看hadoop上數據 $ hadoop fs -cat /hawq_data/test.txt dnsdde,ededed sddde,dedw swewd,wreref hadoop上的數據是以逗號分隔的數據
4.1 測試PXF連接Hive
創建pxf插件CREATE EXTENSION pxf; 創建測試外部表CREATE EXTERNAL TABLE hive_test( id text, name text ) LOCATION ('pxf://udt.test?PROFILE=Hive&SERVER=hdp-prod') FORMAT 'custom' (formatter='pxfwritable_import'); 查詢數據 select * from salesinfo_hiveprofile; id | name ----+------ 2 | 2 1 | 1 (2 rows)
4.2 測試PXF連接Haddop
創建測試外部表 CREATE EXTERNAL TABLE hadoop_test ( a varchar(100), b varchar(100) ) LOCATION ('pxf://hawq_data/test.txt?PROFILE=hdfs:text&SERVER=hdp-prod') ON ALL FORMAT 'text' (delimiter E',') ENCODING 'UTF8'; 查看數據 select * from test; a | b --------+-------- dnsdde | ededed sddde | dedw swewd | wreref (3 rows)
5 PXF單節點安裝說明
如果Greenplum是單節點的安裝或者想單臺機器運行pxf,可以把cluster命令是pxf init/pxf start/pxf stop等