原创 Java實現字符串數組組合

/** * date: 2011-6-27 * author:pengxuan.lipx * remark:combine the adj keywords for lmsj */ import java.lang.StringB

原创 hadoop wordcount運行實例

root@hadoop1:/opt/hadoop# echo "hello hadoop world" > /tmp/test_file1.txtroot@hadoop1:/opt/hadoop# cat /tmp/test_file1.

原创 數據標準化

數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,

原创 oracle模糊查詢:全文索引方式(三)

--test: DATABASE:dwtest(210開發庫) SQL> desc iquery.lpx_kw_tmp02 Name               Type          Nullable Default Comment

原创 Hadoop計算文件大小

//Hadoop計算文件大小: public static void main(String[] args) throws IOException{       String tablePath= pathPrefix + args[0]

原创 Hadoop MapReduce:詳解Shuffle過程

http://langyu.iteye.com/blog/992916 講的很詳細

原创 hadoop生態系統

【轉】 近些年來Hadoop生態系統發展迅猛,它本身包含的軟件越來越多,同時帶動了周邊系統的繁榮發展。尤其是在分佈式計算這一領域,系統繁多紛雜,時不時冒出一個系統,號稱自己比MapReduce或者Hive高效幾十倍,幾百倍。有一些無知的人

原创 hive-udf

--指數化處理 熱度*(π-1.8),然後四捨五入後分段 分段規則:【<=50(1/段),>50&<=100(10/段),>100&<=1000(30/段),>1000&<=5000(100/段),>5000(1000/段)】向上取段  

原创 hive中間接實現不等值連接

由於hive中不支持不等值連接,給應用帶來不便。 create tablelpx_test_a as select id,class  from ( select 1 as id, 2 asclass from dual union

原创 hive cli

Hive Cli   = hive啓動  = *$ hive –f script.q *$ hive -e 'SELECT *FROM dummy‘ *$ hive -S -e 'SELECT* FROM dummy‘ *$ h

原创 hive優化(4)之mapjoin和union all避免數據傾斜

發生數據傾斜時,通常的現象是: 任務進度長時間維持在99%(或100%),查看任務監控頁面,發現只有少量(1個或幾個)reduce子任務未完成。 查看未完成的子任務,可以看到本地讀寫數據量積累非常大,通常超過10GB可以認定爲發生數據

原创 hive優化(1)之mapjoin

hive> create table lpx_mapjoin as    > SELECT '2012-04-17' as stat_date    >        ,b.admin_member_id    >        ,a.

原创 Hive優化(2)之系統評估reduce數爲1的MR Job優化

名詞解釋: 雲霄飛車:hive本身對MR Job的 reduce數估算不合理,導致reduce分配過少,任務運行很慢,雲霄飛車項目主要對hive本身reduce數的估算進行優化。 map_input_bytes:map輸入文件大小,單位

原创 Hive優化(3)之隨機數避免數據傾斜

發生數據傾斜時,通常的現象是: 任務進度長時間維持在99%(或100%),查看任務監控頁面,發現只有少量(1個或幾個)reduce子任務未完成。查看未完成的子任務,可以看到本地讀寫數據量積累非常大,通常超過10GB可以認定爲發生數據傾斜。

原创 在Oracle中利用SQL_TRACE跟蹤SQL的執行

源自http://blog.csdn.net/kkdelta/article/details/7980061 當你在執行一條SQL語句非常慢的時候,你是不是想問Oracle怎麼執行這條語句的呢? Oracle提供的SQL_TRACE工具可