原创 hadoop異常之 reduce拉取數據失敗  (error in shuffle in fetcher)

主要錯誤信息:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#43 解決辦法:限制re

原创 hive join 優化 --小表join大表

1、小、大表 join 在小表和大表進行join時,將小表放在前邊,效率會高,hive會將小表進行緩存。 2、mapjoin 使用mapjoin將小表放入內存,在map端和大表逐一匹配,從而省去reduce。 例子: select /*

原创 java 生成xml 編碼 utf-f 、 gb2312

沒有難度,直接上代碼了 /** * * @param fileName */ public static void createXmlUtf_8(String fileName) { Element root = D

原创 hive union all 使用

功能:將兩個表中的 相同的字段拼接到一起 特點:union all不去重,數據會重複 測試: create external table IF NOT EXISTS temp_uniontest_ta ( a1 string, a2 s

原创 windows7 配置 python開發環境

1、安裝python2.7     官網下載,安裝,配置環境變量 path,命令行 運行python 2、easy_install 安裝 win7 64位必須使用ez_setup.py進行安裝。方法是下載ez_setup.py後,在cm