http://bbs.chinahadoop.cn/portal.php
http://www.chinahadoop.cn/
下面這個文章很好的講解了Partitions的使用方法 http://www.aahyhaa.com/archives/316 其他參考文章: http://p-x1984.iteye.com/blog/1156408 http://ww
最近開始自學大數據,肯定免不了hadoop、hive、hbase這些東西。 此處把自己對這3個的理解記錄一下:1、hadoop:它是一個分佈式計算+
在hive學習(3)--- 較大數據下的hql執行速度中提到了不同hql會導致不同的執行速度,和不同的job數,同時也會存在不同job中,不同slaver的負載不一致,也就是所謂的數據傾斜,所以在這裏專門探索下hive根據hql生成job
在學習hive前,首先需要準備一份樣例數據,然後把這個數據加載進hive的對應表中, 這裏我用java寫file的方式創建了3個關於城市天氣情況的數據,每個字段以空格隔開,\r\n換行,例子如下: 2014-05-23|07:33:58
http://hongweiyi.com/2012/09/apache-hadoop-yarn-background-and-an-overview/ http://blog.csdn.net/yangbutao/article/deta
前提:已經安裝好了hadoop2.2.0,當然也可以是其他版本的hadoop,作者使用的是這個版本,並在vmware上配了一個master和3個slaver。配置方式參考: http://blog.csdn.net/glgl2424/ar
kafka名詞說明 分佈式 高吞吐量 消息系統 producer:生產者 consumer:消費者 broker:機器,節點 controller:kafka服務器的主節點 負責管理元數據(zk存儲一份) follower:kafka服務
1、簡介 它可以讓你發佈和訂閱記錄流。在這方面,它類似於一個消息隊列或企業消息系統。 它可以讓你持久化收到的記錄流,從而具有容錯能力。 首先,明確幾個概念: • Kafka運行在一個或多個服務器上。 • Kafka集羣分類存儲的記
如題,百度找到的解決方法爲: 在master節點上修改hdfs-sit.xml加上以下內容 <name>dfs.permissions</name> <value>false</value> </prop
常見的一些基礎面試題: 1、hadoop運轉的原理? 2、mapreduce的原理?3、HDFS存儲的機制?4、舉一個簡略的比方闡明mapreduce是怎麼來運轉的 ?5、面試的人給你出一些疑問,讓你用mapreduce來完成?
原博客地址:http://www.cnblogs.com/njuduyu/archive/2013/03/31/2991657.html eclipse的安裝就不必累贅,我下載的是這一個:eclipse-SDK-4.2.2-linux-g
背景:在本地執行代碼遠程連接hiveserver2,操作hive中的數據 問題1:從本地load文件到hive遇到一個問題,代碼中執行load語句報錯:Invalid path xxxx: No files matching pa
在PowerLinux平臺使用Hbase的時候,經常碰到如下問題: Hbase編譯完成後,在X86平臺能夠正常使用,但是PowerLinux平臺會出現如下的錯誤: root@rhel1-> hbase shell 2014-09-28 0