原创 Hadoop序列化

一、序列化概念         1 序列化(Serialization)是指把結構化對象轉化爲字節流。         2 反序列化(Deserialization)是序列化的逆過程。即把字節流轉回結構化對象。         3 Jav

原创 Hadoop之HDFS文件讀寫過程

一、HDFS讀過程       1.1 HDFS API 讀文件  Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(con

原创 hive入門

什麼是Hive        Hive 是建立在 Hadoop  上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL ),這是一種可以存儲、查詢和分析存儲在 Hadoop  中的大規模數據的機制。Hive 定

原创 SVN與其他工具整合

【SVN與Eclipse整合】 SVN與Eclipse整合 下載SVN插件(http://subclipse.tigris.org) 解壓到一個文件夾中 進入eclipse 安裝目錄中dr

原创 HBASE Shell

hbase提供了一個shell的終端給用戶交互 名稱 命令表達式 創建表 create '表名稱', '列族名稱1','列族名稱2','列族名稱N' 添加記錄      put '表名稱', '行名稱', '列名

原创 Hadoop之MapReduce-倒排索引案例

一、問題描述         統計每個單詞在各個文件中出現的次數。 二、所給數據        1. 輸入數據:          a.txt:                      b.txt          hello tom 

原创 版本控制入門

【學習目標】   掌握SVN服務端與客戶端的安裝與配置   掌握SVN服務端權限配置   掌握SVN在Eclipse中的使用 【問題引入】   參與過2人以上的軟件項目開發?   開發過程中程序是否具有版本控制?  如果不使用版本控制還會

原创 Hbase簡介(很好的梳理材料)

一、 簡介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype create

原创 SVN入門(一)

【SVN簡介】 Svn(Subversion)是近年來崛起的版本管理工具,在當前的開源項目裏(J2EE),幾乎95%以上的項目都用到了 SVN。Subversion 項目的初衷是爲了替換當年開源社區最爲流行的版本控制軟件

原创 sqoop簡介及安裝

一、sqoop簡介        Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將

原创 Hbase集羣搭建

1.上傳hbase安裝包 2.解壓 3.配置hbase集羣,要修改3個文件(首先zk集羣已經安裝好了)   【注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下】    3.1修改h

原创 Hbase的java接口

public class HbaseDemo { private Configuration conf = null; @Before public void init(){ conf = HBaseConfigurati

原创 hive安裝(單節點)

1.上傳tar包 2.解壓     tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 3.配置mysql metastore(切換到root用戶)     配置HIVE_HOME環境變量     rpm -qa

原创 Hadoop序列化案例

一、問題描述        根據所給的數據輸出每一個手機號上網的上載流量、下載流量和總流量。 二、數據格式     輸入數據(部分)格式     1363157973098     15013685858    5C-0E-8B-C7-F

原创 Hadoop之MapReduce-Partition編程

一、問題描述        在Hadoop序列化案例(http://blog.csdn.net/gaijianwei/article/details/46004025)的基礎上,將輸出的數據按照手機號所屬的運營商進行分區。 二、問題實現