pig的安裝、pig的數據模型和pig的常用命令

原創

2020-07-03 04:59

pig的安裝

1、解壓pig的安裝到到安裝位置

tar -zxvf pig-***.jar -C 你的安裝目錄

2、配置環境變量

vim ~/.bash_profile

3、運行pig

pig的運行方式有倆種，這兩種方式取決於他們處理文件在什麼上面，如果處理的文件在本地linux目錄中那麼就是本地模式，如果

處理的是hdfs上的文件那麼就是集羣模式。所以總結爲倆種模式，本地模式和集羣模式。

本地模式的啓動方式：處理的是本地Linux的文件，不是HDFS

啓動命令：pig -x local

通過打印的日誌Connecting to hadoop file system at: file:///可以看到是鏈接的就是本地的文件

集羣模式：操作的就是HDFS

需要配置一個環境變量：指向Hadoop的配置文件的目錄
PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
export PIG_CLASSPATH

啓動命令：pig

從啓動命令後打印的日誌，pig鏈接的是hdfs

pig的數據模型：

pig的數據模型其實pig的表的結構

pig表叫做bag，bag又是有tuple組成。

tuple中有可以嵌套bag

pig有幾個注意的點：

pig的表中的每個tuple可以不是一樣的，可以有不同的列

pig允許表的嵌套

pig物理存儲的數據模型是json數據

pig的常用命令：

ls cd cat mkdir pwd：在pig的集羣模式下是操作的是hdfs上的文件，這幾個操作命令要比使用hdfs的命令快很多

copyFromLocal copyToLocal：這個是用來在本地和hdfs集羣上來回的拷貝文件的

sh：這個是用來在pig集羣命令行模式下操作本地文件的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pig的安裝、pig的數據模型和pig的常用命令

pig的安裝

pig的數據模型：

pig的常用命令：

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

基於Zookeeper搭建hadoop的HA功能

Zookeeper的簡介和使用

zookeeper集羣搭建以及測試數據同步功能

sqoop數據採集

怎麼使用EurekaServer創建springcloud中的單機版和集羣版註冊中心

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結