Hive学习笔记（二）—Hive数据类型和存储格式

原創

水墨之白

2020-06-14 04:24

Hive 支持关系型数据中大多数基本数据类型，除了额外的三个复杂的数据类型。

一、数据类型

array

类比java中的array 有序的的同类型的集合

create table test(
    id int,
    name string,
    hobby array<string>
)
row format delimited
fields terminated by '\t'
collection items terminated by ',';

array的默认分割是\002，在shell中如何敲出来ctrl+v ctrl+b，这里使用的是逗号分隔

在导入数据时，数据的格式应该如下：

1 张三 read,run

array的引用，使用arrayName[index],索引从0开始

map

类比java中的map key-value,key必须为原始类型，value可以任意类型

create table test(
    id int,
    name string,
    score map<string, float> comment "this is score"
) row format delimited 
fields terminated by '\t'
collection items terminated by ','
map keys terminated by '=';

根据上面的定义，导入的数据格式应该如下：

1 张三 Chinese=102,Math=121,English=124

map里面的默认的key和value之间的分隔符:\003,在shell里面通过ctrl+v ctrl+c
map具体值的调用格式,列名[“属性”],比如score[“math”]

struct

类比java中的object 字段集合,类型可以不同

create table t5_struct (
    id int,
    name string,
    address struct<province:string, city:string, zip:int>
) row format delimited 
fields terminated by '\t'
collection items terminated by ',';

根据上面的定义，导入的数据格式应该如下：

id name address(province:string, city:string, zip:int)
1 小陈 bj,chaoyang,100002
2 老王 hb,shijiazhuang,052260
3 小何 hn,huaiyang,466000
4 小马 hlj,harbin,10000

调用的格式：列名.属性，比如address.province

二、存储格式

textfile

textfile为默认格式，存储方式为行存储。数据不做压缩，磁盘开销大，数据解析开销大

SequenceFile

SequenceFile是Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点
SequenceFile支持三种压缩选择：NONE, RECORD, BLOCK。 Record压缩率低，一般建议使用BLOCK压缩。

RCFile

一种行列存储相结合的存储方式

ORCFile

数据按照行分块，每个块按照列存储，其中每个块都存储有一个索引。hive给出的新格式，属于RCFILE的升级版,性能有大幅度提升,而且数据可以压缩存储,压缩快快速列存取。

Parquet

Parquet也是一种行式存储，同时具有很好的压缩性能；同时可以减少大量的表扫描和反序列化的时间

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive学习笔记（二）—Hive数据类型和存储格式

一、数据类型

array

map

struct

二、存储格式

textfile

SequenceFile

RCFile

ORCFile

Parquet

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

Hive學習筆記（二）—Hive數據類型和存儲格式

Hive學習筆記（四）—Hive分桶表

Hive學習筆記（五）—Hive連接優化

Hive學習筆記（三）—Hive分區表

線程池的異常處理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結