Hive性能優化(全面)

作者:浪尖
原文鏈接
本文轉載自公衆號:Spark學習技巧


1.介紹

首先,我們來看看Hadoop的計算框架特性,在此特性下會衍生哪些問題?

  • 數據量大不是問題,數據傾斜是個問題。
  • jobs數比較多的作業運行效率相對比較低,比如即使有幾百行的表,如果多次關聯多次彙總,產生十幾個jobs,耗時很長。原因是map reduce作業初始化的時間是比較長的。
  • sum,count,max,min等UDAF,不怕數據傾斜問題,hadoop在map端的彙總合併優化,使數據傾斜不成問題。
  • count(distinct ),在數據量大的情況下,效率較低,如果是多count(distinct )效率更低,因爲count(distinct)是按group by 字段分組,按distinct字段排序,一般這種分佈方式是很傾斜的。舉個例子:比如男uv,女uv,像淘寶一天30

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章