大数据BigData之hive怎么样才能够直接读取amazon s3中的.gz文件数据呢？

原創

RunFromHere

2020-06-19 22:53

在看这篇文章之前，请确保以下几件事

安装好 jdk
安装好 hadoop （记得准备好需要用到的jar包）
安装好 hive （记得配置元数据库、准备好需要用到的jar包）
配置好 hadoop 连接 amazon s3 的文件
配置好 hive 连接 amazon s3 的文件
配置好 hive 与 hadoop 之间的连接

hive怎么样才能够直接读取amazon s3中的.gz文件数据呢？

我们分解一下这个问题，分成三个部分：

hive 能不能读取 amazon s3 中的文件数据？
hive 能不能读取 .gz 文件数据？
hive 能不能读取在 amazon s3 中的 .gz 文件数据？

文章目录

1. hive能不能读取amazon s3中的文件数据？

1.1 准备数据

提前准备好数据文件 a.txt，放在 s3a://bucket/test/ 目录下。

$ s3cmd put a.txt s3://bucket/test/

a.txt 的内容如下：

Edward,Lear,Baker Street 202
Stephen,Hawking,Baker Street 203
John,Dalton,Baker Street 204
Charles,Darwin,Baker Street 205
Sherlock,Holmes,Baker Street 221B

1.2 创建外部表

进入hive cli，并创建一张外部表，定位到 s3a://bucket/s3aTestBaker/ 目录

CREATE EXTERNAL TABLE test
(FirstName STRING, LastName STRING, StreetAddress STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3a://bucket/test/';

表会自动读取 s3a://bucketms/s3aTestBaker/ 目录下的文件（此目录下必须所有文件都是可读文件，不然下一步查询会报错：无法解析文件类型）

1.3 查询数据

可以实时把 s3a://bucketms/s3aTestBaker/ 目录下的文件数据通过创建好的外部表 select 出来

hive>select * from test;
Edward    Lear     Baker Street 202
Stephen   Hawking  Baker Street 203
John      Dalton   Baker Street 204
Charles   Darwin   Baker Street 205
Sherlock  Holmes   Baker Street 221B

2. hive能不能读取.gz文件数据？

尝试本地读取
将上述的 a.txt 文件压缩成 .gz 文件，本地操作

$ gzip a.txt
$ ls
a.txt    a.gz		//已经看到压缩成功了

这时，再创建一张本地表

CREATE TABLE test_local
(FirstName STRING, LastName STRING, StreetAddress STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/home/user/a.gz';

3. hive能不能读取在amazon s3中的.gz文件数据？

我们来尝试一下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大数据BigData之hive怎么样才能够直接读取amazon s3中的.gz文件数据呢？

hive怎么样才能够直接读取amazon s3中的.gz文件数据呢？

文章目录

1. hive能不能读取amazon s3中的文件数据？

1.1 准备数据

1.2 创建外部表

1.3 查询数据

2. hive能不能读取.gz文件数据？

3. hive能不能读取在amazon s3中的.gz文件数据？

.NET有哪些好用的定时任务调度框架

Python 将PDF转为PDF/A、PDF/X，以及PDF/A转回PDF

elk3

Kafka存储机制

aws语音呼叫调用，告警电话

深度学习框架火焰图pprof和CUDA Nsys配置指南

爬虫两种绕过5s盾的方法

【转】[C#] WebAPI 防止并发调用二（冥等性）

【转】[SQL Server]关掉 SSMS 的 IntelliSense

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Linux系統之Centos對某張網卡配置靜態網絡

大數據Elasticsearch之Linux系統安裝Kibana

一圖看懂如何做需求調研

Linux系統之查看目錄下所有文件的大小

大數據BigData之hive怎麼樣才能夠直接讀取amazon s3中的.gz文件數據呢？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結