原创 【Hadoop】Build and Execute

Hadoop官方wiki上介紹瞭如何用Maven編譯和生成Eclipse項目,但是它需要hadoop-common的trunk代碼,因爲只有trunk上有pom.xml文件。而對於其他release版本的源代碼,都包含build.xml,

原创 【Hadoop】Why Writable Interface

在前面學習RPC系統的時候,可以看到client和server相互通訊都是用Writable類型來序列化。實際上,Writable Interface是一種Hadoop內置的序列化機制,MapReduce中的key, value都需要是W

原创 【Reading】2013-05, 06, 07, 08

http://hortonworks.com/blog/moving-hadoop-beyond-batch-with-apache-yarn/ 分析Hadoop YARN出現的原因,主要的角度是SQL in Hadoop;http:/

原创 搭建Hadoop VM集羣

之前一直在單節點psudo-distributed模式下跑,覺得有必要試試搭建一個真正的distributed環境。期間參考了不少文章,這裏做個小筆記。 VM創建 這裏利用VMware創建一臺VM做master,再鏈接克隆出一臺VM做sl

原创 【Hadoop】RPC Client Workflow

Client端比Server端簡單,只有兩種線程: Client線程:發起RPC的主線程Connection線程:每一個ConnectionId (由<remoteAddress, protocol, ticket>組成)唯一對應一個C

原创 【Hadoop】JobTracker Restart Recovery

如果當前有MapReduce Job正在運行,而JobTracker突然down掉了,怎麼辦?由於JobTracker只是負責Job調度,記賬,監控等工作,真正的任務執行在TaskTracker上,完全有可能重啓JT而不丟失之前的任務運行

原创 【Java】Maven使用筆記

Maven通常被用於管理程序依賴,這部分需要配置Maven的settings.xml文件。一般必須配置的有兩個:      1. 配置本地倉庫地址,用於緩存已經拉取得依賴,不用每次都去網絡上拉取: <localRepository>/

原创 【Hadoop】MapReduce Job Submission Files - 代碼描述

Copy Job jar File  org.apache.hadoop.mapred.JobClient.submitJobInternal() --> copyAndConfigureFiles() String origin

原创 VMware VM上網設置

Host-only方式 1、打開vmnetcfg.exe 1.1 在“DHCP”選項卡下選中 VMnet1 ,點擊右下方的“開始”,再點“應用” 1.2 記住VMnet1的子網 1.3 切換至“NAT”選項卡,在“VMnet 主機”中選擇

原创 【Notes】Effective Java 2nd -- Concurrency

Item 66: Synchronize access to shared mutable data 1. Not only does synchronization prevent a thread from observing an

原创 【Hadoop】MapReduce Job Submission Files

整個MapReduce Job運行流程的最初幾步是Client向JobTracker提交Job,如下圖所示,圖中第三步是將Job運行相關資源提交到JobTracker可見的文件系統上。本文將討論Client需要提交的幾個主要文件。 下

原创 【Hadoop】RPC Serialization Format - 代碼描述

在前面一篇文章http://blog.csdn.net/tragicjun/article/details/8958154中大致總結了RPC消息序列化的格式,這裏從代碼層來描述。 Client-side RPC Header org.a

原创 【Note】Java Collections Study

HashMap vs TreeMap vs LinkedHashMap 1) HashMap is a map based on hashing of the keys. It supports O(1) get/put opera

原创 A Hadoop data pipeline to analyze applicaction performance

1.  Introduction In recent years, Hadoop has been under the spotlight for its flexible and scalable architecture to sto

原创 【Hadoop】RPC Server Workflow

RPC Server的實現用到了Thread,Cocurrency,NIO等技術,對於學習者來說是很好的實踐參考。這裏先把workflow理清楚,再去研究具體的實現細節。 如下圖所示,其主要涉及到以下幾種線程: Listener線程:以