原创 hadoop 一個Job多個MAP與REDUCE的執行

在hadoop 中一個Job中可以按順序運行多個mapper對數據進行前期的處理,再進行reduce,經reduce後的結果可經個經多個按順序執行的mapper進行後期的處理,這樣的Job是不會保存中間結果的,並大大減少了I/O操作。

原创 如何使用Hadoop的MultipleOutputs進行多文件輸出

有時候,我們使用Hadoop處理數據時,在Reduce階段,我們可能想對每一個輸出的key進行單獨輸出一個目錄或文件,這樣方便數據分析,比如根據某個時間段對日誌文件進行時間段歸類等等。這時候我們就可以使用MultipleOutputs類,

原创 騰訊深度學習平臺(譯)

1 介紹 1.1     背景 騰訊提供了一些列Internet服務,比如擁有3.9億左右月激活用戶的微信(WeChat)、以及8.4億左右QQ用戶和6.4億左右的QZone用戶。這些數據是來自於2014年第一季度。騰訊擁有超過100PB

原创 HDFS中文件的壓縮與解壓

文件的壓縮有兩大好處:1、可以減少存儲文件所需要的磁盤空間;2、可以加速數據在網絡和磁盤上的傳輸。尤其是在處理大數據時,這兩大好處是相當重要的。  

原创 [MapReduce] 如何向map和reduce腳本傳遞參數,加載文件和目錄

本文主要講解三個問題:       1 使用Java編寫MapReduce程序時,如何向map、reduce函數傳遞參數。       2 使用Streaming編寫MapReduce程序(C/C++, Shell, Python)時,如

原创 kafak學習之分享ppt

 組內分享Kafak的ppt,希望大家多提建議:                                      

原创 國內第一篇詳細講解hadoop2的automatic HA+Federation+Yarn配置的教程

前言       hadoop是分佈式系統,運行在linux之上,配置起來相對複雜。對於hadoop1,很多同學就因爲不能搭建正確的運行環境,導致學習興趣銳減。不過,我有免費的學習視頻下載,請點擊這裏。     hadoop2出來後,解決

原创 HDFS 的Trash回收站功能的配置、使用

文件的刪除和恢復         和Linux系統的回收站設計一樣,HDFS會爲每一個用戶創建一個回收站目錄:/user/用戶名/.Trash/,每一個被用戶通過Shell刪除的文件/目錄,在系統回收站中都一個週期,也就是當系統回收

原创 hadoop使用lzo壓縮文件筆記 (CDH3u1)

LZO性能   編譯LZO 下載:   http://www.oberhumer.com/opensource/lzo/download/   wget http://www.oberhumer.com/opensour

原创 Hive Server 2 調研,安裝和部署

背景       我們使用Hive Server 1已經很長時間了,用戶ad-hoc query,hive-web, wormhole,運營工具等都是通過hive server來提交語句。但是hive server極其不穩定,經常會莫

原创 MapReduce的自制Writable分組輸出及組內排序

原創作品,允許轉載,轉載時請務必以超鏈接形式標明文章 原始出處 、作者信息和本聲明。否則將追究法律責任。http://computerdragon.blog.51cto.com/6235984/1287721 問題描述: 輸入文件

原创 如何使用Hadoop的ChainMapper和ChainReducer

Hadoop的MR作業支持鏈式處理,類似在一個生產牛奶的流水線上,每一個階段都有特定的任務要處理,比如提供牛奶盒,裝入牛奶,封盒,打印出廠日期,等等,通過這樣進一步的分工,從而提高了生產效率,那麼在我們的Hadoop的MapReduce中

原创 hadoop用MultipleInputs/MultiInputFormat實現一個mapreduce job中讀取不同格式的文件

hadoop中提供了 MultiOutputFormat 能將結果數據輸出到不同的目錄,也提供了 FileInputFormat 來一次讀取多個目錄

原创 hadoop集羣配置機架感知

自己搭建的hadoop集羣一般默認不具備機架感知能力,爲了提高hadoop集羣的網絡性能,我們常常需要配置機架感知。下面是以下步驟: 一、修改配置文件core-site.xml,添加配置屬性:   <property> <name>t

原创 Ceph:一個 Linux PB 級分佈式文件系統

作爲一名存儲行業的架構師,我對文件系統情有獨鍾。這些系統用來存儲系統的用戶界面,雖然它們傾向於提供一系列類似的功能,但它們還能夠提供差異顯著的功能。Ceph 也不例外,它還提供一些您能在文件系統中找到的最有趣的功能。 Ceph 最