原创 hive報lzo Premature EOF from inputStream錯誤

今天dw組同事發郵件說有一個問題讓幫解決一下,他們自己沒能搞得定,以下問題解決過程: 1、hql insert overwrite table mds_prod_silent_atten_user partition (dt=20141

原创 Yarn在Shuffle階段內存不足問題(error in shuffle in fetcher)

最近在遷移job到新集羣hadoop2.4,業務方在跑一個hql的時候shuffle階段出現OOM,這個問題之前從來沒有遇到過,看了一下相關日誌和counter,看不出個所以然,在網上搜索了一下,發現網友也遇到過相同的問題,以下是轉載的

原创 Yarn shuffle OOM錯誤分析及解決

前兩週和同事一起分析了一下yarn shuffle oom的問題,最後他寫了一個blog,我這裏就不重複寫了,把他的轉載過來,他的blog寫得都很有深度,推薦大家去看看。 原文地址:http://dj1211.com/?p=358 最近

原创 一次因爲數據問題引起的reduce被卡住streaming作業問題排查

        廣告產品技術部有一個作業總是卡在某個reduce上,運行了好幾個小時也運行不完,經過他們初步排查找不着問題原因,發郵件讓我幫看看,我看了一下這個streaming作業是用python實現的,而且聽他們描述,3月17之前該作

原创 hive-0.13固化自定義UDF

        之前幫業務方固化過hive-0.7的自定義的UDF,由於現在大部分業務數據都已經遷移到hadoop2.4.0,hive使用的版本是0.13,之前固化的UDF不能用了,讓在0.13上面也固化一下,以下是固化過程: 1、常用

原创 reduce端緩存數據過多出現FGC,導致reduce生成的數據無法寫到hdfs

     搜索推薦有一個job,1000多個map,200個reduce,運行到最後只剩一個reduce(10.39.6.130上)的時候,出現以下異常,導致job失敗: 2014-12-04 15:49:04,297 INFO [ma

原创 hadoop2.4.0的distcp引起的問題

最近在支持業務部門將數據從hadoop0.20.203遷移到hadoop2.4.0的時候,distcp報了幾個錯誤,在這裏記錄一下: 1、報權限錯誤 15/01/06 10:48:37 ERROR tools.DistCp: Unabl

原创 hadoop2.0的mapreduce作業classpath研究

       hdfs raid從facebook移植過來很久了,包括hadoop0.20.203和hadoop2.4.0版本,但是最近才準備上線hadoop2.4.0版本的hdfs raid,上線前準備在好好測試測試,確保上線順利,hd

原创 hive中使用正則表達式不當導致運行奇慢無比

       業務保障部有一個需求,需要用hive實時計算上一小時的數據,比如現在是12點,我需要計算11點的數據,而且必須在1小時之後運行出來,但是他們用hive實現的時候發現就單個map任務運行都超過了1小時,根本沒法滿足需求,後來打

原创 mapreduce作業reduce被大量kill掉

       之前有一段時間,我們的hadoop2.4集羣壓力非常大,導致提交的job出現大量的reduce被kill掉,相同的job運行時間比在hadoop0.20.203上面長了很多,這個問題其實是reduce 任務啓動時機的問題,由

原创 SVN中branch的合併和打patch(1)

       最近要在hadoop2.4上面上線hdfs raid,但是之前hdfs raid是作爲svn 的branch開發的,領導希望通過patch的方式將hdfs raid功能打進trunk裏面去,這裏涉及到svn branch和t

原创 通過sed和awk獲取集羣最新掛掉的DataNode信息

       由於之前遠程桌面不好使,集羣出現了missing block的時候沒法登陸遠程桌面查看是那些節點由於重啓導致DataNode進程掛掉。同時簡單的用命令hdfs dfsadmin -report查看又不方便,信息量太多,以下是

原创 Spark RDD API詳解(一) Map和Reduce

轉載地址:https://www.zybuluo.com/jewes/note/35032 RDD是什麼? RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個

原创 hadoop2.4 支持snappy

       我們hadoop2,4集羣默認不支持snappy壓縮,但是最近有業務方說他們的部分數據是snappy壓縮的(這部分數據由另外一個集羣提供給他們時就是snappy壓縮格式的)想遷移到到我們集羣上面來進行計算,但是直接運行時報錯

原创 mac 安裝jdk1.7出現Missing tools.jar解決方案

$ cd /Library/Java/JavaVirtualMachines/jdk1.7.0_17.jdk/Contents/Home/ $ sudo mkdir Classes $ cd Classes $ sudo ln -s .