HiveQL學習

原創

2019-05-22 14:03

1.當hive執行join內存溢出時，可以修改hive的配置文件hive-site.xml，增大內存，如下：

< property >
< name >mapred.child.java.opts< /name >
< value >-Xmx 1024m < /value >
< /property >

2.hive默認建表時的路徑也可以在hive-site.xml裏配置，如下:

< property >
< name >hive.metastore.warehouse.dir< /name >
< value >/user/hive/warehouse< /value >
< description >location of default database for the warehouse< /description >
< /property >

3.執行join操作的時候，儘量把小表放前面，大表放前面可能會因爲內存溢出而出錯

4.對分區表進行操作需要對分區進行過濾（如：ds=$yday）。特別是在JOIN操作的時候，分區過濾（如：ds=$yday）需要放到 ON語句或子查詢 裏面。不能放到ON後面的WHERE裏，這樣會掃描所有表，最後才判斷分區。也就是說程序會先執行JOIN操作，纔會執行最後的WHERE操作。

5.在JOIN操作中，後面被連續JOIN且同一字段，只會執行一個mapreduce操作。

SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON a.t=c.t; 推薦的

SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON b.t=c.t; 效率低下的

6.當一個大表和一個很小的表進行JOIN操作的時候，使用MAPJOIN操作，這樣會把小表讀入內存進行JOIN，只需要一個map操作JOIN就完成了

select /*+ mapjoin(a)*/ a.c1,b.c2,b.c3 from a join b on a.c4=b.c4;

7.通過設置hive.merge.mapfiles可以關閉hive對於掃描表的優化，但有時候會提高效率。默認值爲true。可以視情況設置：只含有SELECT的語句或 MAPJOIN 推薦使用

8.ALTER TABLE a SET SERDEPROPERTIES('serialization.null.format' = ''); 可以使結果表不出現\N字符串，而用空串代替

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

職場上，不知道這些，活該工資比人低一倍

在職場上，我們會遇到很多煩惱：要去大城市嗎？去大公司還是小公司？遇到職場上的迷茫期應該怎麼辦......今天職場邦小編分享心得給大家！但很多時候，這些煩惱產生的原因只是因爲你“想得太多，做得太少”。我們抱着“守株待兔”的心情

2020-07-07 22:41:25

C語言實現的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

Pytorch垃圾分類搭建CNN模型中遇到的坑

背景就是利用pytorch進行圖形分類處理，採用的是cnn算法，在使用過程中碰到了一些小麻煩。 1、在對圖片進行壓縮時的報錯，報錯形式爲： raise ValueError("empty range for randrange() (%

2020-07-08 09:59:08

項目中權限分配使用到的位運算

原因：某一模塊的權限太多，如對客戶的權限，增刪改查就是四個權限，就是四個權限字符串與之對應。解決方案：增 2 ，刪 4 ，改 8 查 16 對應二進制爲 2：10 4：100 8：1000 16：10000

2020-07-08 09:13:30

Maven相關問題彙總

maven中的${project.groupId} 和 ${project.version} 表示當前項目的groupId和版本。

2020-07-08 09:13:30

重學計算機基礎計劃

大學畢業一年、高中畢業五年矣。大學所學，幾近忘光，愧對老師們曾經的教導，於是突發奇想，想重新學習計算機基礎，並寫blog以此鞭策自己。重學的計算機基礎內容包括但不限於以下內容： 1. 數據結構與算法 2. 編程語言 3. 操作系統 4.

2020-07-08 06:15:20

ElasticSearch使用教程四(ElasticSearch查詢詳解)

一、簡介說明注意：以下命令都是使用sense測試(ElasticSearch第二步-CRUD之Sense)，且數據都已經使用過IK分詞。以下測試數據來源於文檔(db_test/person) 需要注意的是下面的id是文檔的ID，

2020-07-08 04:10:56

143. Reorder List學習

143. Reorder List Total Accepted: 71015 Total Submissions: 301125 Difficulty: Medium Given a singly linke

2020-07-08 04:10:45

SpringBoot項目部署到linux服務器

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，並在上一篇介紹了linux環境的準備與搭建，SpringBoot項目部署到linux服務器之環境搭建，這篇記錄一下從git上拉取項

2020-07-08 02:35:43

SpringCloud Stream 整合 RabbitMQ-消費失敗後重試

上一篇完成SpringCloud Stream整合RabbitMQ： SpringCloud Stream整合RabbitMQ，沒有進行任何配置，本篇記錄一下消息消費失敗後重試配置。在程序開發過程中難免會出現各種奇葩異常，假如當

2020-07-08 02:35:43

Nacos(三)-Nacos Spring Cloud-配置中心

前兩篇記錄了下載安裝nacos、使用nacos作爲註冊中心： Nacos(一)-下載安裝 Nacos(二)-Nacos Spring Cloud-註冊中心本篇記錄使用nacos作爲配置中心，並通過配置頁面修改配置進行動態刷新

2020-07-08 02:35:43

SpringCloud Stream 整合RabbitMQ

本篇簡單介紹SpringCloud Stream 整合RabbitMQ基本步驟：引入SpringCloud 引入SpringCloud Stream相關依賴定義綁定接口: 消息生產者(Output…Binding) 、消息消

2020-07-08 02:35:43

Nacos(二)-Nacos Spring Cloud-註冊中心

上一篇記錄了下載安裝nacos Nacos(一)-下載安裝本篇記錄使用nacos作爲註冊中心，並註冊服務提供者、服務消費者進行調用演示。一、項目介紹本次創建一個項目nacos,其中包含兩個Module: service

2020-07-08 02:35:43

SpringBoot項目部署到linux服務器之環境搭建

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，這一篇記錄一下linux環境準備與搭建(linux環境裝在本機的虛擬機中）。一、軟件準備虛擬機：VirtualBox 下

2020-07-08 02:35:43

如何合適的應對遭遇戰？

設想：你在沒有任何準備的情況，老闆忽然問你對某件事物的看法？老闆開會的時候忽然說有一個領導崗位空缺，請大家馬上毛遂自薦，互相PK我們該如何應對呢？可惜

2020-07-07 23:15:57

24小時熱門文章

最新文章

最新評論文章