hadoop系列： hive优化篇

原創

2018-10-06 07:35

hive优化: 表设计, mr作业

linux系统下，在用户当前目录创建配置文件~/.hiverc，加入配置参数

#显示头，db: 
set hive.cli.print.current.db=true ; 
set hive.cli.print.header=true ;

part1: 本地模式

#本地模式：
set hive.exec.mode.local.auto=true ;
set hive.exec.mode.local.auto.input.files.max=10 ; #[最大文件数]
set hive.exec.reducers.bytes.per.reducer=134217728 ; #[默认128MB]

part2: 使用压缩+并行处理+查询优化

#使用压缩： 输出文件压缩 	
SET hive.exec.compress.output=true ;
set mapred.output.compression.codec='类名' ;
SET io.seqfile.compression.type=BLOCK ;	
set hive.exec.compress.intermediate=true ;#[中间压缩]

#并行处理 +jvm重用
 set hive.exec.parallel=true ;
 set hive.exec.parallel.thread.number=8 ; #[默认]
 set mapred.job.reuse.jvm.num.tasks=1 ;#[默认]

#join查询优化： map端join[大表+小表]
#0.7之前：
set hive.auto.convert.join=true ; 
#0.7之后：
set hive.mapjoin.smalltable.filesize=大小 ;
set hive.auto.convert.join=true ;

#热点数据优化： 	
set hive.groupby.skewindata=true ; 
set hive.optimize.skewjoin=true ;

part3 : 设计优化与分析


表设计优化	分区表+ 桶表
存储优化	列式存储（orc, rcfile, parquet）行式存储（sequencefile）
分区计算	analyze【表 [分区] compute statics】
跟踪job	explain 【sql 语句】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2-7HDFS读取数据过程（Hadoop系列day02）

首先得到FileSystem類通過get()方法。（讀取配置信息，反射）構建了一個DistributedFileSystem 調用 initialize()方法, 構建了DFSClient對象，作爲Distribute

yust此号已弃用

2020-06-29 20:18:20

1-2.伪分布模式安装步骤（Hadoop系列之day01）

[僞分佈模式安裝步驟] 關閉防火牆修改IP 修改hostname 設置ssh自動登錄安裝jdk 安裝Hadoop >>關閉防火牆如果是對外網提供服務的，當然不能關閉防火牆，容易被別人搞死。那麼Hadoop爲什麼要關閉

yust此号已弃用

2020-06-29 20:18:20

1-3.linux下安装JDK（Hadoop系列day01）

複習： HDFS解決海量存儲 MapReduce解決海量計算 YARN–其他計算模型也可以運行在YARN上僞分佈式： Windows下裝VM-啓動起來-修改主機名、IP-關閉防火牆-修改主機名和IP的映射關係接下來-

yust此号已弃用

2020-06-29 20:18:20

1-7.配置ssh免密码登陆配置和ssh原理（Hadoop系列day01）

問題：啓動需要多次輸入密碼關閉也需要輸入多次密碼 (需要輸入密碼的原因是底層走的是ssh協議) 一臺機器給另一臺機器發送命令，如果走的是ssh協議，必須輸入密碼，即使是ssh給本機發送指令解決

yust此号已弃用

2020-06-29 20:18:20

2-2.1.Hadoop2.0x HDFS shell命令（Hadoop系列day02）

Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile <localsrc> ... <dst> 可同

yust此号已弃用

2020-06-29 20:18:20

2-5HDFS的java接口（Hadoop系列day02）

java接口操作hdfs 新建項目 java project 保證jdk版本和以後Linux中jdk版本一直（大版本一致即可）導入jar包 new folder lib 將jar包放在這個lib文件夾下 buil

yust此号已弃用

2020-06-29 20:18:20

2-3HDFS原理（Hadoop系列day02）

hdfs架構 Metadata–>元數據元數據信息，內存保留一份，磁盤保留一份（爲了快速讀取，保存在內存；爲了防止丟失，序列化到硬盤一份）元數據存儲細節元數據存儲細節：文件名，幾個副本，分成幾塊，每塊存

yust此号已弃用

2020-06-29 20:18:20

hdfs数据块丢失处理

查看修復HDFS中丟失的塊檢測缺失塊 1 hdfs fsck -list-corruptfileblocks 1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica 查看上面某一個文件的情

2020-06-24 18:35:45

hadoop 通过distcp并行复制。

hadoop權威指南第四版 Hadoop自帶一個有用程序distcp，該程序可以並行從Hadoop文件系統中複製大量數據，也可以系那個大量數據複製到Hadoop中。 Distcp的一種用法是替代 hadoop fs -cp

2020-06-24 04:02:44

HIVE中常用的日期函数

1、to_date：日期時間轉日期函數 select to_date('2019-09-02 11:34:12'); 輸出：2019-09-02 2、from_unixtime：轉化unix時間戳到當前時區的時間格式 select fro

2020-06-24 04:02:44

YARN作业运行机制及三种资源调度器（FIFO/容量/公平调度器）

原 Hadoop MapReduce 框架的問題從上圖中可以清楚的看出原 MapReduce 程序的流程及設計思路：首先用戶程序 (JobClient) 提交了一個 job，job 的信息會發送到 Job Tracker 中，Job

2020-06-24 04:02:43

列存储格式Parquet浅析

Apache Parquet是Hadoop生態圈中一種新型列式存儲格式，它可以兼容Hadoop生態圈中大多數計算框架(Hadoop、Spark等)，被多種查詢引擎支持（Hive、Impala、Drill等），並且它是語言和平臺無關的。Pa

2020-06-24 04:02:43

HDFS的高级API操作各种java 操作demo【转载】

原文鏈接：https://www.cnblogs.com/frankdeng/p/9061449.html 一 HDFS客戶端環境準備 1.1 jar包準備 1）解壓hadoop-2.7.6.tar.gz到非中文目錄 2）進入share文

2020-06-24 04:02:43

hadoop 分布式集群中HDFS系统的各种角色(namenode datanode SecondaryNameNode)

NameNode 學習目標理解 namenode 的工作機制尤其是元數據管理機制，以增強對 HDFS 工作原理的理解，及培養 hadoop 集羣運營中“性能調優”、“namenode”故障問題的分析解決能力問題場景 1、Nameno

2020-06-24 04:02:43

hadoop 一致性模型，确保断电不丢数据(hflush() 和 hsync())

原文鏈接：https://www.infoq.cn/article/large-data-processing-ensuring-data-not-lost-when-power-off 在 Hadoop 2.0.2-alpha 之前，H

2020-06-24 04:02:43

24小時熱門文章

最新文章

最新評論文章