pig的安裝、pig的數據模型和pig的常用命令

pig的安裝

1、解壓pig的安裝到到安裝位置

tar -zxvf pig-***.jar -C 你的安裝目錄

2、配置環境變量

vim ~/.bash_profile

3、運行pig

pig的運行方式有倆種,這兩種方式取決於他們處理文件在什麼上面,如果處理的文件在本地linux目錄中那麼就是本地模式,如果

處理的是hdfs上的文件那麼就是集羣模式。所以總結爲倆種模式,本地模式和集羣模式。

本地模式的啓動方式:處理的是本地Linux的文件,不是HDFS

啓動命令:pig -x local

通過打印的日誌Connecting to hadoop file system at: file:///可以看到是鏈接的就是本地的文件

集羣模式:操作的就是HDFS

需要配置一個環境變量:指向Hadoop的配置文件的目錄
  PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
  export PIG_CLASSPATH

啓動命令:pig

從啓動命令後打印的日誌,pig鏈接的是hdfs

pig的數據模型:

pig的數據模型其實pig的表的結構

pig表叫做bag,bag又是有tuple組成。

tuple中有可以嵌套bag

pig有幾個注意的點:

   pig的表中的每個tuple可以不是一樣的,可以有不同的列

   pig允許表的嵌套

   pig物理存儲的數據模型是json數據

  pig的常用命令:

   ls  cd  cat  mkdir  pwd:在pig的集羣模式下是操作的是hdfs上的文件,這幾個操作命令要比使用hdfs的命令快很多

  copyFromLocal  copyToLocal:這個是用來在本地和hdfs集羣上來回的拷貝文件的

  sh:這個是用來在pig集羣命令行模式下操作本地文件的

   register define:register是爲了註冊jar到pig中,define是爲了給取別名用的

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章