原创 HIVE優化提示-如何寫好HQL

一、     Hive join優化 1.     儘量將小表放在join的左邊,我們這邊使用的hive-0.12.0,所以是自動轉化的,既把小表自動裝入內存,執行map side join(性能好), 這是由參數hive.auto.co

原创 Hadoop Streaming 常見錯誤(不斷更新ing)

1、streaming默認的情況下,mapper和reducer的返回值不是0,被認爲異常任務,將被再次執行,默認嘗試4次都不是0,整個job都將失敗 java.lang.RuntimeException: PipeMapRed.w

原创 HIVE優化總結

優化時,把hive sql當做map reduce程序來讀,會有意想不到的驚喜。 理解hadoop的核心能力,是hive優化的根本。這是這一年來,項目組所有成員寶貴的經驗總結。   長期觀察hadoop處理數據的過程,有幾個顯著的特徵:

原创 準確度量 持續改進—網站分析驅動目標達成

1 爲什麼要對網站進行分析? 首先是第一部分,我們爲什麼要對網站進行分析?網站分析並不是所有網站的標準配置,很多網站都沒有做這個工作,他們也運營的很好。那麼我們爲什麼需要網站分析呢? 在回答這些問題之前,我先要反問一個問題,你的網站爲什

原创 京東手Q一起玩真個性

京東與手機QQ的合作吸取了不少微信上的經驗,做得更有針對性,也更個性化,尤其是針對手機QQ上最活躍的三四線城市的年輕人。這次合作使得京東能夠通過移動互聯網覆蓋更廣泛的人羣,讓他們加入移動購物的大軍 8月8日,睡醒一覺之後

原创 分享個百度員工離職總結:如何做個好員工(受益匪淺)

2014年7月4日,我從百度離職了。  這是第一次,我不是因爲和老闆鬧翻而離職;  這是第一次,我帶着晉升的喜悅而離職;  這是第一次,我帶着滿滿的收穫而離職。  我曾經認爲,我永遠不會成爲一個好員工,因爲我太獨、太挑剔、不喜歡聽話的好孩

原创 hadoop源碼[0]-初衷和各種資源

初衷 目前的工作就是維護着一個hadoop搭建的數據集市,既是工作的需要,同時想研究下Hadoop底層代碼原理,主要依據這篇博文(http://caibinbupt.iteye.com/blog/262412)的線索看下去,如果中途有

原创 Hive 中內部表與外部表的區別與創建方法

先來說下Hive中內部表與外部表的區別: Hive 創建內部表時,會將數據移動到數據倉庫指向的路徑;若創建外部表,僅記錄數據所在的路徑, 不對數據的位置做任何改變。在刪除表的時候,內部表的元數據和數據會被一起刪除, 而外部表只刪除元數據,

原创 基於計算機資源分析hadoop的默認counter

前言 由於項目中,需要統計每個業務組使用的計算機資源,如cpu,內存,io讀寫,網絡流量。所以需要閱讀源碼查看hadoop的默認counter。 MapReduce Counter可以觀察MapReduce job運行期的一些細節

原创 Hadoop源碼分析[5]-counter的使用和默認counter的含義

在map和reduce的過程中,可以通過設置Context.setStatus()來隨時設置狀態,這個底層也是使用reporter來設置的 1.在0.20.x版本中使用counter很簡單,直接定義即可,如無此counter,hado

原创 MapReduce 計數器簡介

在許多情況下,一個用戶需要了解待分析的數據,儘管這並非所要執行的分析任務 的核心內容。以統計數據集中無效記錄數目的任務爲例,如果發現無效記錄的比例 相當高,那麼就需要認真思考爲何存在如此多無效記錄。是所採用的檢測程序存在 缺陷,還是數據

原创 Hadoop管理員的十個最佳實踐

接觸Hadoop有兩年的時間了,期間遇到很多的問題,既有經典的NameNode和JobTracker內存溢出故障,也有HDFS存儲小文件問題,既有任務調度問題,也有MapReduce性能問題.遇到的這些問題有些是Hadoop自身的缺陷(

原创 HadoopDoctor—TDW MapReduce診斷系統

摘要: TDW是基於Hadoop生態圈研發的大數據處理平臺,MapReduce計算引擎在TDW平臺中承擔了所有的離線數據計算,是TDW最重要的底層支撐平臺之一。在TDW 平臺中,除了MR程序會生成MapReduce作業外,被廣泛應用的

原创 HIVE優化總結第二彈

一、join優化 Join查找操作的基本原則:應該將條目少的表/子查詢放在 Join 操作符的左邊。原因是在 Join 操作的 Reduce 階段,位於 Join 操作符左邊的表的內容會被加載進內存,將條目少的表放在左邊,可以有效減少發

原创 關於拉鍊表

(一)概念       拉鍊表是針對數據倉庫設計中表存儲數據的方式而定義的,顧名思義,所謂拉鍊,就是記錄歷史。記錄一個事物從開始,一直到當前狀態的所有變化的信息。         在歷史表中對客戶的一生的記錄可能就這樣幾條記錄,避免