原创 下代MapReduce預覽

摘要:根據目前的狀況來看,Hadoop作爲企業級數據倉庫體系結構核心技術,在未來的數年中將會保持持續增長的勢頭。下一代的MapReduce節點數將從目前的4000增加到6000-10000,其次併發的任務數從目前的40000增加到1000

原创 HBase筆記 hadoop.hbase.NotAllMetaRegionsOnlineException

有空裝個HBase玩玩 之前Hadoop等環境已經有了,所以想了解Hadoop的安裝可以google一下 最主要的就是系統環境參數都配好,比如 HADOOP_HOME ZOOKEEPER_HOME HBASE_HOME 在HBASE_HO

原创 task tracker最大任務數設置

用oozie跑一個workflow 這個workflow包含多個sqoop和pig腳本 剛開始跑就發生了問題,具體情況爲: sqoop啓動的job,map顯示100%,狀態爲running reduce 0%然後無反映,一直處於等待狀態

原创 Pig Distinct by fields

PIG自帶的distinct只支持整條記錄相同的過濾,並不支持對某些字段的distinct PIG的說明如下 You cannot use DISTINCT on a subset of fields. To do this, use F

原创 HBase筆記 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null

早上啓動hadoop,然後馬上啓動hbase 進入hbase shell 查詢一張表,結果報錯:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null 報錯寫的很清楚M

原创 Hive筆記--安裝

Hive的安裝其實很簡單下載tar包解壓,然後配置一下HIVE_HOME和系統PATH就可以了 然後運行hive Logging initialized using configuration in jar:file:/home/kira

原创 centos6.4安裝GCC4.8 C++11

參考資料 http://superuser.com/questions/381160/how-to-install-gcc-4-7-x-4-8-x-on-centos/542091#542091 其實就是安裝一個工具devtools g

原创 cloudera-manage 安裝報錯

Installation failed. Failed to receive heartbeat from agent.     Ensure that the host's hostname is co

原创 使用rmp包安裝impala1.4.1

首先安裝impala依賴包 添加repo使用yum安裝 sudo wget -O /etc/yum.repos.d/bigtop.repo http://www.apache.org/dist/bigto

原创 在cdh5-yarn上運行map-reduce

在cdh5版本的yarn上運行一個map-reduce任務結果報錯,信息如下 2013-11-28 15:31:04,978 WARN org.apache.hadoop.yarn.server.nodemanager.container

原创 安裝implala報錯找不到jdbc

錯誤信息: Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg E1127 16:39:33.860738 22207 catalog.cc:70] ja

原创 Thrift lua example

歡迎轉載,帶上鍊接即可http://blog.csdn.net/superye1983/article/details/51190166 最近做個項目,想法是nginx+lua+thrift thrift是一個比較流行的rpc框架,很多公

原创 Hadoop CDH5 手動安裝僞分佈式模式

CDH5已經使用了Hadoop2.2.0 重新弄個虛擬機重頭裝一下 由於Cloudera強烈建議使用rmp包或者apt-get的方式安裝,一時半刻我都沒有找到手動安裝的說明,在安裝的遇到多個問題,稍作記錄 首先環境要求         

原创 Hbase merge multiple region

假設你的table有10個region,他們的名字分別爲1,2...10 Hbase 並沒有提供直接合並 2-8這7個region的方法,如果你要合併多個region,那要稍微麻煩一點,具體方法如下 首先使用Hbase shell自帶的m

原创 oozie rerun job in 2.3.0-cdh3u0

當一個oozie job運行失敗後可以使用rerun參數重跑job 由於我的oozie版本比較舊,文檔中是這樣說的 oozie.wf.application.pathoozie.wf.rerun.skip.nodesAbove two