HiveQL学习

原創

2019-05-22 14:03

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：

< property >
< name >mapred.child.java.opts< /name >
< value >-Xmx 1024m < /value >
< /property >

2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:

< property >
< name >hive.metastore.warehouse.dir< /name >
< value >/user/hive/warehouse< /value >
< description >location of default database for the warehouse< /description >
< /property >

3.执行join操作的时候，尽量把小表放前面，大表放前面可能会因为内存溢出而出错

4.对分区表进行操作需要对分区进行过滤（如：ds=$yday）。特别是在JOIN操作的时候，分区过滤（如：ds=$yday）需要放到 ON语句或子查询 里面。不能放到ON后面的WHERE里，这样会扫描所有表，最后才判断分区。也就是说程序会先执行JOIN操作，才会执行最后的WHERE操作。

5.在JOIN操作中，后面被连续JOIN且同一字段，只会执行一个mapreduce操作。

SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON a.t=c.t; 推荐的

SELECT * FROM a LEFT OUTER JOIN b ON a.t=b.t LEFT OUTER JOIN c ON b.t=c.t; 效率低下的

6.当一个大表和一个很小的表进行JOIN操作的时候，使用MAPJOIN操作，这样会把小表读入内存进行JOIN，只需要一个map操作JOIN就完成了

select /*+ mapjoin(a)*/ a.c1,b.c2,b.c3 from a join b on a.c4=b.c4;

7.通过设置hive.merge.mapfiles可以关闭hive对于扫描表的优化，但有时候会提高效率。默认值为true。可以视情况设置：只含有SELECT的语句或 MAPJOIN 推荐使用

8.ALTER TABLE a SET SERDEPROPERTIES('serialization.null.format' = ''); 可以使结果表不出现\N字符串，而用空串代替

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

职场上，不知道这些，活该工资比人低一倍

在職場上，我們會遇到很多煩惱：要去大城市嗎？去大公司還是小公司？遇到職場上的迷茫期應該怎麼辦......今天職場邦小編分享心得給大家！但很多時候，這些煩惱產生的原因只是因爲你“想得太多，做得太少”。我們抱着“守株待兔”的心情

2020-07-07 22:41:25

C语言实现的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

Pytorch垃圾分类搭建CNN模型中遇到的坑

背景就是利用pytorch進行圖形分類處理，採用的是cnn算法，在使用過程中碰到了一些小麻煩。 1、在對圖片進行壓縮時的報錯，報錯形式爲： raise ValueError("empty range for randrange() (%

2020-07-08 09:59:08

项目中权限分配使用到的位运算

原因：某一模塊的權限太多，如對客戶的權限，增刪改查就是四個權限，就是四個權限字符串與之對應。解決方案：增 2 ，刪 4 ，改 8 查 16 對應二進制爲 2：10 4：100 8：1000 16：10000

2020-07-08 09:13:30

Maven相关问题汇总

maven中的${project.groupId} 和 ${project.version} 表示當前項目的groupId和版本。

2020-07-08 09:13:30

重学计算机基础计划

大學畢業一年、高中畢業五年矣。大學所學，幾近忘光，愧對老師們曾經的教導，於是突發奇想，想重新學習計算機基礎，並寫blog以此鞭策自己。重學的計算機基礎內容包括但不限於以下內容： 1. 數據結構與算法 2. 編程語言 3. 操作系統 4.

2020-07-08 06:15:20

ElasticSearch使用教程四(ElasticSearch查询详解)

一、簡介說明注意：以下命令都是使用sense測試(ElasticSearch第二步-CRUD之Sense)，且數據都已經使用過IK分詞。以下測試數據來源於文檔(db_test/person) 需要注意的是下面的id是文檔的ID，

2020-07-08 04:10:56

143. Reorder List学习

143. Reorder List Total Accepted: 71015 Total Submissions: 301125 Difficulty: Medium Given a singly linke

2020-07-08 04:10:45

SpringBoot项目部署到linux服务器

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，並在上一篇介紹了linux環境的準備與搭建，SpringBoot項目部署到linux服務器之環境搭建，這篇記錄一下從git上拉取項

2020-07-08 02:35:43

SpringCloud Stream 整合 RabbitMQ-消费失败后重试

上一篇完成SpringCloud Stream整合RabbitMQ： SpringCloud Stream整合RabbitMQ，沒有進行任何配置，本篇記錄一下消息消費失敗後重試配置。在程序開發過程中難免會出現各種奇葩異常，假如當

2020-07-08 02:35:43

Nacos(三)-Nacos Spring Cloud-配置中心

前兩篇記錄了下載安裝nacos、使用nacos作爲註冊中心： Nacos(一)-下載安裝 Nacos(二)-Nacos Spring Cloud-註冊中心本篇記錄使用nacos作爲配置中心，並通過配置頁面修改配置進行動態刷新

2020-07-08 02:35:43

SpringCloud Stream 整合RabbitMQ

本篇簡單介紹SpringCloud Stream 整合RabbitMQ基本步驟：引入SpringCloud 引入SpringCloud Stream相關依賴定義綁定接口: 消息生產者(Output…Binding) 、消息消

2020-07-08 02:35:43

Nacos(二)-Nacos Spring Cloud-注册中心

上一篇記錄了下載安裝nacos Nacos(一)-下載安裝本篇記錄使用nacos作爲註冊中心，並註冊服務提供者、服務消費者進行調用演示。一、項目介紹本次創建一個項目nacos,其中包含兩個Module: service

2020-07-08 02:35:43

SpringBoot项目部署到linux服务器之环境搭建

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，這一篇記錄一下linux環境準備與搭建(linux環境裝在本機的虛擬機中）。一、軟件準備虛擬機：VirtualBox 下

2020-07-08 02:35:43

如何合适的应对遭遇战？

設想：你在沒有任何準備的情況，老闆忽然問你對某件事物的看法？老闆開會的時候忽然說有一個領導崗位空缺，請大家馬上毛遂自薦，互相PK我們該如何應對呢？可惜

2020-07-07 23:15:57

24小時熱門文章

最新文章

最新評論文章