台部落lpxuan151009

/** * date: 2011-6-27 * author:pengxuan.lipx * remark:combine the adj keywords for lmsj */ import java.lang.StringB

2020-02-22 12:54:05

root@hadoop1:/opt/hadoop# echo "hello hadoop world" > /tmp/test_file1.txtroot@hadoop1:/opt/hadoop# cat /tmp/test_file1.

2020-02-22 12:54:05

數據的標準化（normalization）是將數據按比例縮放，使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除數據的單位限制，

2020-02-22 12:54:05

--test: DATABASE:dwtest(210開發庫) SQL> desc iquery.lpx_kw_tmp02 Name Type Nullable Default Comment

2020-02-22 12:54:05

//Hadoop計算文件大小: public static void main(String[] args) throws IOException{ String tablePath= pathPrefix + args[0]

2018-09-03 22:37:51

http://langyu.iteye.com/blog/992916 講的很詳細

2018-09-03 22:37:38

【轉】近些年來Hadoop生態系統發展迅猛，它本身包含的軟件越來越多，同時帶動了周邊系統的繁榮發展。尤其是在分佈式計算這一領域，系統繁多紛雜，時不時冒出一個系統，號稱自己比MapReduce或者Hive高效幾十倍，幾百倍。有一些無知的人

2018-09-03 22:37:17

--指數化處理熱度*(π-1.8)，然後四捨五入後分段分段規則:【<=50(1/段),>50&<=100(10/段),>100&<=1000(30/段),>1000&<=5000(100/段),>5000（1000/段）】向上取段

2018-09-03 22:37:13

由於hive中不支持不等值連接，給應用帶來不便。 create tablelpx_test_a as select id,class from ( select 1 as id, 2 asclass from dual union

2018-09-03 22:37:13

Hive Cli = hive啓動 = *$ hive –f script.q *$ hive -e 'SELECT *FROM dummy‘ *$ hive -S -e 'SELECT* FROM dummy‘ *$ h

2018-09-03 22:37:13

發生數據傾斜時，通常的現象是：任務進度長時間維持在99%（或100%），查看任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成。查看未完成的子任務，可以看到本地讀寫數據量積累非常大，通常超過10GB可以認定爲發生數據

2018-09-03 22:37:12

hive> create table lpx_mapjoin as > SELECT '2012-04-17' as stat_date > ,b.admin_member_id > ,a.

2018-09-03 22:37:12

名詞解釋：雲霄飛車：hive本身對MR Job的 reduce數估算不合理，導致reduce分配過少，任務運行很慢，雲霄飛車項目主要對hive本身reduce數的估算進行優化。 map_input_bytes：map輸入文件大小，單位

2018-09-03 22:37:12

發生數據傾斜時，通常的現象是：任務進度長時間維持在99%（或100%），查看任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成。查看未完成的子任務，可以看到本地讀寫數據量積累非常大，通常超過10GB可以認定爲發生數據傾斜。

2018-09-03 22:37:12

源自http://blog.csdn.net/kkdelta/article/details/7980061 當你在執行一條SQL語句非常慢的時候,你是不是想問Oracle怎麼執行這條語句的呢? Oracle提供的SQL_TRACE工具可

2018-09-03 22:37:11