原创 Hive 查看函數(udf)定義及示例

1、 desc function  split ; 返回  split(str, regex) - Splits str around occurances that match regex Time taken: 0.056 secon

原创 sparksql通過jdbc讀取mysql時劃分分區問題

當通過spark讀取mysql時,如果數據量比較大,爲了加快速度,通常會起多個task並行拉取mysql數據。 其中一個api是 def jdbc(url: String, table: String, columnName: Str

原创 多年大數據開發經驗總結

初入行,搞大數據開發。得高人指點,先學mapreduce,不足一年,tez興,後入此道。朝夕不倦,發憤圖強,才能略知一二。無奈後浪推前浪,tez被spark拍在沙灘上,遂投spark之懷。繼而抖擻精神,奮袂而起,github、stacko

原创 hive中 bucket mapjoin 與 SMB join(Sort-Merge-Bucket)區別

1 bucket mapjoin 1.1 條件 1) set hive.optimize.bucketmapjoin = true; 2) 一個表的bucket數是另一個表bucket數的整數倍 3) bucket列 == join列

原创 hive中join導致的數據傾斜問題排查

hive中大key導致的join數據傾斜問題1、場景如果某個key下記錄數遠超其他key,在join或group的時候可能會導致某個reduce任務特別慢。本文分析下join的場景。本例子SQL如下:查詢每個appid打開的次數,需要排除

原创 mapreduce中split劃分分析(新版api)

面試的過程中,筆者經常喜歡問一個問題:hadoop中map數是怎麼確定的?但發現還是有好多面試者都答不上來。這個問題其實算是比較基礎的一個問題,對於理解mapreduce的原理很有幫助。 今天有空結合源碼分析一下。 本文以hadoop2

原创 Hadoop裏的設計模式之單例模式

單例模式是創建性模式之一,算是比較簡單好理解的了。 單例模式:保證一個類僅有一個實例,並提供一個訪問它的全局訪問點。 我們以Hadoop2.7版本中的ShutdownHookManager舉例講解單例模式的幾個需要注意的地方: 1)將構

原创 查看線程數的幾種方法

1 top top -H -p 如下 如果是查看系統中總的線程數,直接用top -H選項 2 pstree pstreee -p pid |wc -l 如果是查看系統中總的線程數,用pstree -p |wc -l 3 通過

原创 Understanding Hive joins in explain plan output

Hive is trying to embrace CBO(cost based optimizer) in latest versions, and Join is one major part of it. Understanding

原创 openjdk1.8執行jmap報錯

openjdk版本 openjdk version "1.8.0_161" OpenJDK Runtime Environment (build 1.8.0_161-b14) OpenJDK 64-Bit Server VM (build

原创 centos7.4安裝圖形界面並遠程桌面連接

1 系統版本 CentOS release 6.2 (Final) 以下安裝需要用root權限操作。 2 安裝x windows yum groupinstall -y “X Window System”  //注意有引號 3 安裝圖

原创 64位jvm和32位jvm性能

原文引自於: http://www.oracle.com/technetwork/java/hotspotfaq-138619.html#64bit_description 一般來說,64位jvm相比32位jvm能夠處理更大的內存,但

原创 如何查看jvm中的各種參數以及默認值

1 標準參數 標準參數(-),所有的JVM實現都必須實現這些參數的功能,而且向後兼容; 通過命令 java即可查看 如下 where options include: -d32 use a 32-bit da

原创 Hive中mapjoin優化例子

1 基本信息 3個表,1個事實表,2個維度表 事實表 test_fact (mid string,sex_id string,age_id string ) 維度表dim_user_demography_age (age_id stri

原创 Java多線程-生產者消費者例子-使用Synchronized實現

import java.util.LinkedList; import java.util.List; /** * Created by wisgood . */ public class ProducerConsumerWithS