hive小結

1)hive加載數據

hive加載本地數據和和hdfs數據區別
加載外部表可以爲本地文件,加載內部表,要把數據加載到hdfs上
2)hive中索引
索引
deferred 延期的
compact 緊壓的
3)hive中數據格式
hive可以自定義文件格式。textfile,sequencefile
數據格式:
avro file orc file
ORC File,它的全名是Optimized Row Columnar(柱行的 (ORC) file,其實就是對RCFile做了一些優化。據官方文檔介紹,這種文件格式可以提供一種高效的方法來存儲Hive數據。
4)hive查看編譯的sql語句
hiveql與sql區別
explain select * from tb1 where num = 333
5)hive中求分組topk
hive 中求分組中的topk
select calling_nbr, called_nbr,count,
ROW_NUMBER() over (PARITITION by calling_b=nbr order by count desc) rn from test where rm < 100;
其中PARTITION BY calling_nbr 可選,若加上則表示窗口統計,
否則則是全局統計。
6) udf udaf udtf
udf
collection function size(Map K,V
type conversion funcions cast(‘1’ as BIGINT)
Data function year(string date)year(“1970-01-01 00:00:00”) = 1970, year(“1970-01-01”) = 1970.
String function trim(string A) trim(’ foobar ‘) results in ‘foobar’
aggregate function(udaf)
count(*) ,sum(col),avg(col)
table -generating function (udtf)
將一個輸入行,轉換成多行
7)hive中事務
ACID代表數據庫事務中的四個特性,
原子性,任何一個數據庫操作要麼被完整執行,要麼完全不被執行、
一致性,一旦應用程序執行了一個操作,操作的結果對於每一個之後的造作都是課件的
隔離性,一個用戶的操作不會對其他用戶用戶產生意料之外的副作用。
持久性,一旦一個操作被完成、這些操作也將被記錄下來即時機器或系統
出現故障,也要保證這些記錄的完整性。
從hive0.14開始,insert update delete支持
需要配置hive-site.xml
添加hive元數據,初始化三張表

8)hive中確定map數目與reduce數目
hive中設置map數目和reduce數目,
1、map數目,通過設置一個map任務執行文件的大小;直接設置map任務數;對文件大,和任務邏輯複雜的任務,可以增加map數,提高執行效率。
2、reduce數目,hive.exec.reducers.bytes.per.reducer(每個reduce任務處理的數據量,默認爲1000^3=1G)
hive.exec.reducers.max(每個任務最大的reduce數,默認爲999)
計算reducer數的公式很簡單N=min(參數2,總輸入數據量/參數1)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章