hive小結

hive小結

原創

2018-08-24 07:03

1)hive加載數據

hive加載本地數據和和hdfs數據區別
加載外部表可以爲本地文件，加載內部表，要把數據加載到hdfs上
2）hive中索引
索引
deferred 延期的
compact 緊壓的
3）hive中數據格式
hive可以自定義文件格式。textfile，sequencefile
數據格式：
avro file orc file
ORC File,它的全名是Optimized Row Columnar（柱行的 (ORC) file,其實就是對RCFile做了一些優化。據官方文檔介紹,這種文件格式可以提供一種高效的方法來存儲Hive數據。
4）hive查看編譯的sql語句
hiveql與sql區別
explain select * from tb1 where num = 333
5）hive中求分組topk
hive 中求分組中的topk
select calling_nbr, called_nbr,count,
ROW_NUMBER() over (PARITITION by calling_b=nbr order by count desc) rn from test where rm < 100;
其中PARTITION BY calling_nbr 可選，若加上則表示窗口統計，
否則則是全局統計。
6） udf udaf udtf
udf
collection function size(Map K,V
type conversion funcions cast(‘1’ as BIGINT)
Data function year(string date)year(“1970-01-01 00:00:00”) = 1970, year(“1970-01-01”) = 1970.
String function trim(string A) trim(’ foobar ‘) results in ‘foobar’
aggregate function(udaf)
count(*) ,sum(col),avg(col)
table -generating function (udtf)
將一個輸入行，轉換成多行
7）hive中事務
ACID代表數據庫事務中的四個特性，
原子性，任何一個數據庫操作要麼被完整執行，要麼完全不被執行、
一致性，一旦應用程序執行了一個操作，操作的結果對於每一個之後的造作都是課件的
隔離性，一個用戶的操作不會對其他用戶用戶產生意料之外的副作用。
持久性，一旦一個操作被完成、這些操作也將被記錄下來即時機器或系統
出現故障，也要保證這些記錄的完整性。
從hive0.14開始，insert update delete支持
需要配置hive-site.xml
添加hive元數據，初始化三張表

8）hive中確定map數目與reduce數目
hive中設置map數目和reduce數目，
1、map數目，通過設置一個map任務執行文件的大小；直接設置map任務數；對文件大，和任務邏輯複雜的任務，可以增加map數，提高執行效率。
2、reduce數目，hive.exec.reducers.bytes.per.reducer（每個reduce任務處理的數據量，默認爲1000^3=1G）
hive.exec.reducers.max（每個任務最大的reduce數，默認爲999）
計算reducer數的公式很簡單N=min(參數2，總輸入數據量/參數1)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

1)hive加載數據

工作中用到的腳本合集

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

nuget添加readme

深入理解java異常處理機制

Hadoop中Map端shuffle過程及源碼解析

Hadoop中reduce端shuffle過程及源碼解析

Hbase系統架構及數據結構

HBase的數據導入方式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結