原创 hbase region, store, storefile和列簇,的關係

轉自:http://zhb-mccoy.iteye.com/blog/1543492   The HRegionServer opens the region and creates a corresponding H

原创 FileInputFormat setInputPaths 和 採用listStatus 對比

FileInputFormat.setInputPaths(job,paths) path可以給定給一個目錄 系統會會從該目錄下找打文件作爲輸入,但是如果給定的目錄下面還有一層目錄,則系統就不會再深入一層,並且可能會提示錯誤: 13/01

原创 關於hbase的read操作的深入研究 region到storefile過程

轉自:http://www.blogjava.net/hello-yun/archive/2012/07/18/383425.html 這裏面說的read既包括get,也包括scan,實際底層來看這兩個操作也是一樣的。 我們將要討論的是,

原创 Hadoop Mapreduce優先級調度

跑三個mapreduce 分別設置優先級VERY_HIGH,HIGH,NORMAL 我認爲 會等第一個mapreduce 完成之後 纔開始第二個,第三個mapreduce 結果不是這樣,在第一個開始執行,不再堵塞的情況下 第二個、第三個就

原创 Apache Mahout 簡介

轉自:http://www.ibm.com/developerworks/cn/java/j-mahout/ Apache Mahout 簡介 通過可伸縮、商業友好的機器學習來構建智能應用程序 Grant Ingersoll

原创 hadoop hbase 升級

Hadoop HDFS 與Hbase升級筆記 由於之前使用了hadoop1.0.2,hbase 使用的是hbase-0.92.1 但是一次事故導致元數據丟失,且修復元數據的類本身有BUG 所以擺在眼前的只有兩條路: 1、修改hbase源

原创 重新 format namenode datanode無法啓動

如果有需求要把namenode format的話,那就會出現上述情況 如果數據還有用,那首先要保存元數據,走下面兩種方式之一。 如果數據是測試數據,沒有也罷,可以放心刪除的話 那就直接走下面兩種方式吧 此時有兩種解法 1、手動刪除data

原创 mapred.map.tasks 如何影響map的個數

且具體到底產生多少個分片(split)  因爲多少個map 是有關係。(此處是根據新的API來分析,因爲新的API 終究要調用到舊的API來做具體的動作) 可能會說這個值 是系統根據文件大小 和根據文件分片大小 算出來的,那具體是如何算出

原创 Avro總結(RPC/序列化)

轉自:http://langyu.iteye.com/blog/708568   Avro(讀音類似於[ævrə])是Hadoop的一個子項目,由Hadoop的創始人Doug Cutting(也是Lucene,Nutch等項目的創始人,膜

原创 Mapreduce 讀取Hbase,寫入hbase IO 不均衡問題

硬件環境:h46、h47、h48 三個節點 2cpu 4核 共8個核心 14G 內存 軟件環境: 三臺機器分別部署hadoop、hbase 並同時作爲datanode 和 tasktracker regionserver、HQuorumP

原创 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 錯誤

當遇到如下錯誤的時候 可能以爲是regionserver 掛掉或者其他原因導致連接不上regionserver  但後面提示了Hbase 表statistic_login 具體信息 Thu Jan 17 15:30:12 CST 2013

原创 Flume日誌收集

一、Flume介紹 Flume是一個分佈式、可靠、和高可用的海量日誌聚合的系統,支持在系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。 設計目標: (1) 可靠

原创 hadoop 集羣中 同步配置文件

在集羣配置中,經常遇到的問題: 1、修改了namenode上的配置文件了,但是忘記把所有文件copy到所有的節點上,導致參數不起作用,或者根本就產生錯誤 2、修改了namenode上的配置文件了,手動一個一個的copy到所有的節點上,如果

原创 hadoop 中 RPC HTTP TCP/IP 服務器的用途

hadoop 守護進程一般同時運行RPC 和HTTP兩個服務器,RPC服務器支持守護進程間的通信,HTTP服務器則提供與用戶交互的Web頁面。需要分別爲各個服務器配置網絡地址和端口號。當網絡地址被設爲 0.0.0.0的時候,Hadoop將

原创 Mahout學習——Canopy Clustering

轉自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html Mahout學習——Canopy Clustering       聚類是機器學習裏很重要