原创 下代MapReduce預覽
摘要:根據目前的狀況來看,Hadoop作爲企業級數據倉庫體系結構核心技術,在未來的數年中將會保持持續增長的勢頭。下一代的MapReduce節點數將從目前的4000增加到6000-10000,其次併發的任務數從目前的40000增加到1000
原创 HBase筆記 hadoop.hbase.NotAllMetaRegionsOnlineException
有空裝個HBase玩玩 之前Hadoop等環境已經有了,所以想了解Hadoop的安裝可以google一下 最主要的就是系統環境參數都配好,比如 HADOOP_HOME ZOOKEEPER_HOME HBASE_HOME 在HBASE_HO
原创 task tracker最大任務數設置
用oozie跑一個workflow 這個workflow包含多個sqoop和pig腳本 剛開始跑就發生了問題,具體情況爲: sqoop啓動的job,map顯示100%,狀態爲running reduce 0%然後無反映,一直處於等待狀態
原创 Pig Distinct by fields
PIG自帶的distinct只支持整條記錄相同的過濾,並不支持對某些字段的distinct PIG的說明如下 You cannot use DISTINCT on a subset of fields. To do this, use F
原创 HBase筆記 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null
早上啓動hadoop,然後馬上啓動hbase 進入hbase shell 查詢一張表,結果報錯:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null 報錯寫的很清楚M
原创 Hive筆記--安裝
Hive的安裝其實很簡單下載tar包解壓,然後配置一下HIVE_HOME和系統PATH就可以了 然後運行hive Logging initialized using configuration in jar:file:/home/kira
原创 centos6.4安裝GCC4.8 C++11
參考資料 http://superuser.com/questions/381160/how-to-install-gcc-4-7-x-4-8-x-on-centos/542091#542091 其實就是安裝一個工具devtools g
原创 cloudera-manage 安裝報錯
Installation failed. Failed to receive heartbeat from agent. Ensure that the host's hostname is co
原创 使用rmp包安裝impala1.4.1
首先安裝impala依賴包 添加repo使用yum安裝 sudo wget -O /etc/yum.repos.d/bigtop.repo http://www.apache.org/dist/bigto
原创 在cdh5-yarn上運行map-reduce
在cdh5版本的yarn上運行一個map-reduce任務結果報錯,信息如下 2013-11-28 15:31:04,978 WARN org.apache.hadoop.yarn.server.nodemanager.container
原创 安裝implala報錯找不到jdbc
錯誤信息: Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg E1127 16:39:33.860738 22207 catalog.cc:70] ja
原创 Thrift lua example
歡迎轉載,帶上鍊接即可http://blog.csdn.net/superye1983/article/details/51190166 最近做個項目,想法是nginx+lua+thrift thrift是一個比較流行的rpc框架,很多公
原创 Hadoop CDH5 手動安裝僞分佈式模式
CDH5已經使用了Hadoop2.2.0 重新弄個虛擬機重頭裝一下 由於Cloudera強烈建議使用rmp包或者apt-get的方式安裝,一時半刻我都沒有找到手動安裝的說明,在安裝的遇到多個問題,稍作記錄 首先環境要求
原创 Hbase merge multiple region
假設你的table有10個region,他們的名字分別爲1,2...10 Hbase 並沒有提供直接合並 2-8這7個region的方法,如果你要合併多個region,那要稍微麻煩一點,具體方法如下 首先使用Hbase shell自帶的m
原创 oozie rerun job in 2.3.0-cdh3u0
當一個oozie job運行失敗後可以使用rerun參數重跑job 由於我的oozie版本比較舊,文檔中是這樣說的 oozie.wf.application.pathoozie.wf.rerun.skip.nodesAbove two