原创 hadoop2.1.0在ubuntu下的安裝配置

在Ubuntu下安裝hadoop2.1.0之前,首先需要安裝如下程序: |- JDK 1.6 or later |- SSH(安全協議外殼) 。 要裝這兩個程序的原因: 1. Hadoop是用Java開發的,Hadoop的編譯及

原创 Hadoop 2.0:分佈式環境搭建安裝配置

集羣環境: 1 NameNode(真實主機): Linux yan-Server 3.4.36-gentoo #3 SMP Mon Apr 1 14:09:12 CST 2013 x86_64 AMD Athlon(tm) X

原创 使用mysql數據庫作爲Hive的元數據庫

在hive/conf文件夾下找到hive-default.xml.template,複製該文件並改名爲hive-site.xml。 修改一下內容: <property>     <name>hive.metastore.lo

原创 Hadoop集羣_Eclipse開發環境設置

1、Hadoop開發環境簡介 1.1 Hadoop集羣簡介   Java版本:jdk-6u31-linux-i586.bin   Linux系統:CentOS6.0   Hadoop版本:hadoop-1.0.0.ta

原创 Zookeeper集羣的安裝部署

ZooKeeper是一個分佈式開源框架,提供了協調分佈式應用的基本服務,它向外部應用暴露一組通用服務——分佈式同步(Distributed Synchronization)、命名服務(Naming Service)、集羣維護(Grou

原创 Hadoop 新 MapReduce 框架 Yarn 詳解

對於業界的大數據存儲及分佈式處理系統來說,Hadoop 是耳熟能詳的卓越開源分佈式文件存儲及處理框架,對於 Hadoop 框架的介紹在此不再累述,讀者可參考 Hadoop 官方簡介。使用和學習過老 Hadoop 框架(0.20.0 及

原创 Hadoop Hive與Hbase整合

用hbase做數據庫,但由於hbase沒有類sql查詢方式,所以操作和計算數據非常不方便,於是整合hive,讓hive支撐在hbase數據庫層面 的 hql查詢.hive也即 做數據倉庫  1. 基於Hadoop+Hive架構對海量數據

原创 sqoop的安裝、配置及使用簡介

下載sqoop和hadoop:wget http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u1.tar.gz                                     w

原创 Hadoop之Hive本地與遠程mysql數據庫管理模式安裝手冊

一、環境描述 Mysql版本:mysql-installer-community-5.5.27.1 32位 Mysql for Windows 7 32位:我把mysql數據庫安裝在了自己win7的筆記本上,這樣的好處就是減少了虛擬機

原创 hive集成hbase筆記

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換爲 MapReduce任務進行運行。其優點學習成本低,可以通過類SQL語句快速實現簡單的MapRe

原创 Hive部署(包括集成Hbase和Sqoop)

1 安裝環境 1.1 系統環境     主要是選擇軟件版本。 Hadoop 1.0.3Hbase 0.94.0Hive 0.8.1zookeeper-3.3.5Mysql 5.5.28JDK 1.6Sqoop-1.4.21.2 環境變量

原创 sqoop hbase導入並與hive結合

sqoop語句以tid爲主鍵,info爲列族 Html代碼 sqoop import --connect jdbc:mysql://ip/taobao_db --username hive --password 123456

原创 windows下Eclipse安裝hadoop1.1.2插件連接hadoop集羣

1、下載Eclipse解壓。 2、把hadoop-eclipse-plugin-1.1.2.jar放到eclipse的plugs目錄下。       我的hadoop集羣用的版本:hadoop1.1.2        hadoop

原创 使用hive讀取hbase數據

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapRe

原创 MapReduce2.0(Yarn)

MapReduce2.0是在Hadoop0.23開始採用的,叫做MapReduce2.0或者MRv2或者Yarn。 MRv2的主要思想是把jobtracker的任務分爲兩個基本的功能,一個是資源管理,一個是任務監控,這兩個任務分別用不