原创 Hadoop中Speculative Task調度策略

1. 背景 Speculative Task,又叫推測式任務,是指在分佈式集羣環境下,因爲程序bug,負載不均衡或者資源分佈不均,造成同一個job的多個task運行速度不一致,有的task運行速度明顯慢於其他task(比如:一個job的某

原创 Hadoop DataXceiver java.io.IOException: Connection reset by peer

最近執行mapreduce的時候老出現mapreduce的task執行不穩定的情況,有時候某個任務一直在重試,導致整個mapreduce一直處於一個階段,就像卡住了一樣,重試N久,最後可能幾小時才執行完。於是乎只好查看各個目錄下的log(

原创 Hadoop MapReduce時Too many open files解決辦法

在HIVE執行MR的時候,報如下錯誤 java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException:

原创 flume 幾個比較有用的source、sink和decorator

Source catalog: 1.Console 控制檯輸出,可以帶輸出內容格式的參數 比如console(“raw”), console(“json”) 2.text("filename"[, format]) 一次讀取文件內容,每一

原创 Linux Tab鍵命令補全失效解決辦法

環境描述 系統:Debian 用戶:hadoop   問題描述 突然便出現了Tab鍵不能補全的問題,cat、ls、cd都如此,如下 hadoop@Debian:/tmp$ vi no-sh: <( compgen -d -- 'no' )

原创 Java中的OutOfMemoryError和JVM內存結構

  OutOfMemoryError在開發過程中是司空見慣的,遇到這個錯誤,新手程序員都知道從兩個方面入手來解決:一是排查程序是否有BUG導致內存泄

原创 Cloudera Flume介紹

Flume是Cloudera提供的日誌收集系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。 Flume是一個分佈式、可靠、和高可用的海量日誌採

原创 Hadoop 雙機熱備-AvatarNode部署

Hadoop 雙機熱備 --AvatarNode部署 部署環境 虛擬機5臺(1G內存,40G硬盤,ubuntu操作系統,Hadoop-0.20.2) hadoop1-virtual-machine  10.10.11.250 Avatar

原创 關於flume中hbase插件數據誤差的問題

前幾天用到flume的日誌收集,基於公司的業務對flume本身自帶的hbase插件做了些改造,測試的時候卻出現了丟數據和多數據的問題…… 1.首先查看collector的event數,是與原數據量相符的。所以在agent與collecto

原创 linux awk使用詳解

 1.什麼是awk? 你可能對UNIX比較熟悉,但你可能對awk很陌生,這一點也不奇怪,的確,與其優秀的功能相比,awk還遠沒達到它應有的知名度。awk是什麼?與其它大多數UNIX命令不同的是,從名字上看,我們不可能知道awk的功能:它既

原创 由hbase.client.scanner.caching參數引發的血案

  環境描述 Hadoop 0.20.203.0 Hbase 0.90.3 Hive 0.80.1   問題描述      前幾天,在HIVE執行SQL查詢的時候出現了一個很奇怪的問題:就是每個SQL(涉及到MapReduce的SQL

原创 zookeeper集羣安裝

準備 1.        下載zookeeper,下載地址http://www.apache.org/dyn/closer.cgi/zookeeper,此處爲zookeeper-3.3.2 2.        分別解壓至zookeepr集

原创 Hadoop&Hbase 備份方案--AvatarNode

Hadoop&Hbase 備份方案 --AvatarNode   需求 實現namenode的雙機熱備,保證Hadoop&Hbase的高可用性(HA)。   方案描述 當主namenode所在服務器宕機的時候,其服務和數據可迅速,完整,無

原创 flume安裝及配置

Flume安裝   介紹 Flume本身的安裝比較簡單(flume的介紹請參考http://blog.csdn.net/rzhzhz/article/details/7448633),安裝前先說明幾個概念,先看flume的架構 1.  

原创 Flume相關參數介紹

Flume配置文件(flume-site.conf) 1、 watchdog watchdog.restarts.max watchdog每分鐘重啓的最大數???         2、 common node flume