pig的安装、pig的数据模型和pig的常用命令

原創

2020-07-03 04:59

pig的安装

1、解压pig的安装到到安装位置

tar -zxvf pig-***.jar -C 你的安装目录

2、配置环境变量

vim ~/.bash_profile

3、运行pig

pig的运行方式有俩种，这两种方式取决于他们处理文件在什么上面，如果处理的文件在本地linux目录中那么就是本地模式，如果

处理的是hdfs上的文件那么就是集群模式。所以总结为俩种模式，本地模式和集群模式。

本地模式的启动方式：处理的是本地Linux的文件，不是HDFS

启动命令：pig -x local

通过打印的日志Connecting to hadoop file system at: file:///可以看到是链接的就是本地的文件

集群模式：操作的就是HDFS

需要配置一个环境变量：指向Hadoop的配置文件的目录
PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
export PIG_CLASSPATH

启动命令：pig

从启动命令后打印的日志，pig链接的是hdfs

pig的数据模型：

pig的数据模型其实pig的表的结构

pig表叫做bag，bag又是有tuple组成。

tuple中有可以嵌套bag

pig有几个注意的点：

pig的表中的每个tuple可以不是一样的，可以有不同的列

pig允许表的嵌套

pig物理存储的数据模型是json数据

pig的常用命令：

ls cd cat mkdir pwd：在pig的集群模式下是操作的是hdfs上的文件，这几个操作命令要比使用hdfs的命令快很多

copyFromLocal copyToLocal：这个是用来在本地和hdfs集群上来回的拷贝文件的

sh：这个是用来在pig集群命令行模式下操作本地文件的

register define：register是为了注册jar到pig中，define是为了给取别名用的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于Zookeeper搭建hadoop的HA功能

簡介使用zookeeper和Hadoop的FailOverController的心跳檢測來維護hadoop，並在hadoop宕機的時候通過zookeeper選舉功能進行Active的切換並使用JournalNode來維護Na

2020-07-06 04:55:18

Zookeeper的简介和使用

Zookeeper是架構模式是主從結構，用來存儲一些數據，也可以做分佈式協調服務，它的主節點叫leader，從節點叫follower。zookeeper允許一半的節點宕機。它的集羣模式一般是奇數臺服務器。 zookeeper的功能

2020-07-04 19:43:14

zookeeper集群搭建以及测试数据同步功能

Zookeeper集羣搭建之前準備工作：時間同步關閉防火牆設置免密碼登陸設置主機名設置host文件我們準備搭建一主倆從，所以需要三臺服務器分別爲 bigdata112 bigdata113 bigdata114 安裝步

2020-07-04 19:43:14

sqoop数据采集

什麼是sqoop sqoop的全稱是SQL-To-Hadoop，它是一個關係型數據庫和Hadoop之間數據交換的工具，它從sql導入到hadoop的過程叫做import，從hadoop導出sql的過程叫做export。import

2020-07-03 15:21:54

Hadoop：HDFS数据存储与切分

Hadoop入門教程：HDFS數據存儲與切分，在Hadoop中數據的存儲是由HDFS負責的，HDFS是Hadoop分佈式計算的存儲基石，Hadoop的分佈式文件系統和其他分佈式文件系統有很多類似的特質。那麼HDFS相比於其他的文件系統有什

2020-07-03 12:54:16

pig中通过pigLatin来分析数据

pig中的表的都是裝在內存中的，如果pig命令行退出後這些表也不復存在。 1、需要把Hadoop的JobHistory Server啓動 mr-jobhistory-daemon.sh start historyserve

2020-07-03 04:59:49

解决hbase中主机宕机引起的hbase shell中命令不可用的问题：ERROR: KeeperErrorCode = NoNode for /hbase/master

ERROR: KeeperErrorCode = NoNode for /hbase/master 從這句話的意思來看應該是HMaster宕機引起的，然後我們用jps查看一下是否真的宕機從這張圖看只有一個zookeeper和hbas

2020-07-03 04:59:49

大数据分析引擎之presto简介

大數據分析引擎之presto簡介簡介： presto是一個大數據分析引擎，不屬於hadoop體系，他是基於內存的。他的集羣模式是主從式的。他可以與任何的大數據存儲引擎做集成，集成的時候使用它的Connectors集成從這裏

2020-07-03 04:59:39

sqoop实现类理解：抽数到hbase

文章目錄1, 官網指南a, 獲取源碼b, sqoop抽數到hbase的實現邏輯四個java實現類2, CDH集羣中sqoop調用過程3, 自定義實現類 1, 官網指南 a, 獲取源碼 http://sqoop.apache.org

根哥的博客

2020-06-19 18:26:26

Hadoop生态圈以及hadoop伪分布式安装

大數據學習歷程HADOOP生態圈簡介HadoopHDFS分佈式存儲系統MapReduce分佈式計算YARN分佈式資源管理Spark 基於內存計算stormHive/pig 基於mapreduce（離線計算）Oozie 作業流調

2020-06-07 00:50:16

hive之自定义函数

2020-04-30 16:27:28

hive的分析函数

2020-04-29 16:27:05

hive的jdbc

2020-04-29 16:27:05

hive数据模型之视图和物化视图

2020-04-28 16:03:58

hive搭建之本地模式和远程模式

2020-04-27 15:37:56

24小時熱門文章

最新文章

最新評論文章