1 Sqoop簡介

Apache Sqoop(TM)是一種旨在有效地在Apache Hadoop和諸如關係數據庫等結構化數據存儲之間傳輸大量數據的工具。

核心的功能有兩個：

導入：MySql、Oracle等導入數據到hadoop的HDFS、Hive、Hbase等數據存儲系統

導出：從Hadoop的文件系統導出數據到關係型數據庫mysql等

Sqoop本質上還是一個命令行工具，和HDFS、Hive相比，並沒有什麼高深的理論

sqoop工具：本質上就是遷移數據，將sqoop遷移命令轉換爲MR程序，不過並沒有reduce task，因爲不需要合併數據

hive工具：本質就是執行計算，依賴於HDFS存儲數據，把HQL轉換成MR程序

2 工作原理

將導入或導出命令轉換成MAapReduce程序實現。

在轉換出的MapReduce中主要是對InputFormat和OutputFormat進行定製

3 Sqoop安裝

安裝sqoop的前提是已經具備Java和Hadoop的環境。

3.1 下載解壓

1. 清華鏡像下載：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/

網盤鏈接：請點這裏提取碼：cmya

2. 將安裝包上傳到虛擬機中，如/opt/software

3. 解壓sqoop安裝包到指定的目錄

$ tar -zxf sqoop-1.4.6.bin_hadoop-2.0.4-alpha.tar.gz -C /opt/module/

3.2 修改配置文件

在sqoop中的conf目錄下

1. 重命名配置文件

$ cp sqoop-env-template.sh sqoop-env.sh

$ cp sqoop-site-template.xml sqoop-site.xml

2. 修改配置文件

sqoop-env.sh

export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2

export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2

export HIVE_HOME=/opt/module/apache-hive-1.2.2-bin

#export HBASE_HOME=/opt/module/hbase

#export ZOOCFGDIR=/opt/module/zookeeper-3.4.10/conf

3.3 拷貝JDBC驅動

拷貝jdbc驅動到sqoop的lib目錄下，如：

$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

3.4 驗證Sqoop

$bin/sqoop help

省略一些警告信息，出現下面內容

Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version information

See 'sqoop help COMMAND' for information on a specific command.

3.5 驗證sqoop是否能夠連接上數據庫

$ bin/sqoop list-databases --connect jdbc:mysql://hadoop101:3306/ --username root --password 123456

省略警告信息，出現如下輸出：

information_schema
company
metastore
mysql
performance_schema
test

4 Sqoop案例

4.1 導入數據

在Sqoop中，“導入”概念指：從非大數據集羣（RDBMS）向大數據集羣（HDFS、Hive、Hbase）中傳輸數據，使用import關鍵字

4.1.1 RDBMS到HDFS

1. 確定mysql服務開啓正常

2. 在mysql新建一張表並插入一些數據

$ mysql -uroot -p123456

mysql> create database company;

mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));

mysql> insert into company.staff(name, sex) values('Thomas', 'Male');

mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

3. 導入數據

（1）全部導入（\ 表時未輸入完）

$ bin/sqoop import \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--table staff \

--target-dir /user/company \

--delete-target-dir \

--num-mappers 1 \

--fields-terminated-by "\t"

如果指定num-mappers>1,那麼需要同時配置split-by,以便程序進行maptask切片

bin/sqoop import \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--table staff \

--target-dir /user/company \

--delete-target-dir \

--num-mappers 2 \

--split-by id \

--fields-terminated-by "\t"

（2）查詢導入

$ bin/sqoop import \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--target-dir /user/company \

--delete-target-dir \

--num-mappers 1 \

--fields-terminated-by "\t" \

--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

提示：must contain '$CONDITIONS' in WHERE clause.

提示：--query選項，不能同時與--table選項使用

（3）導入指定列

$ bin/sqoop import \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--target-dir /user/company \

--delete-target-dir \

--num-mappers 1 \

--fields-terminated-by "\t" \

--columns id,sex \

--table staff

提示：columns中如果涉及到多列，用逗號分隔，分隔時不要添加空格

4.1.3 RDBMS到Hive

$ bin/sqoop import \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--table staff \

--num-mappers 1 \

--hive-import \

--fields-terminated-by "\t" \

--hive-overwrite \

--hive-table staff_hive

提示：該過程分爲兩步，第一步將數據導入到HDFS，第二步將導入到HDFS的數據遷移到Hive倉庫

4.2 導出數據

在Sqoop中，“導出”概念指：從大數據集羣（HDFS，HIVE，HBASE）向非大數據集羣（RDBMS）中傳輸數據，使用export關鍵字。

4.2.1 Hive/HDFS到RDBMS(本質上都是HDFS到RDBMS)

$ bin/sqoop export \

--connect jdbc:mysql://hadoop101:3306/company \

--username root \

--password 123456 \

--table staff \

--num-mappers 1 \

--export-dir /user/hive/warehouse/staff_hive \

--input-fields-terminated-by "\t"

提示：Mysql中如果表不存在，不會自動創建，所以需要提前創建好表

4.3 腳本打包

使用opt格式的文件打包sqoop命令，然後執行

$ touch job_HDFS2RDBMS.opt //創建一個.opt文件

$ vim opt/job_HDFS2RDBMS.opt //編寫腳本

export

--connect  jdbc:mysql://hadoop101:3306/company

--username  root

--password  123456

--table staff

--num-mappers  1

--export-dir  /user/hive/warehouse/staff_hive

--input-fields-terminated-by "\t"

$ bin/sqoop --options-file /opt/module/datas/job_HDFS2RDBMS.opt //執行腳本

Hadoop生態圈（七）：Sqoop

1 Sqoop簡介

2 工作原理

3 Sqoop安裝

3.1 下載解壓

3.2 修改配置文件

3.3 拷貝JDBC驅動

3.4 驗證Sqoop

3.5 驗證sqoop是否能夠連接上數據庫

4 Sqoop案例

4.1 導入數據

4.1.1 RDBMS到HDFS

4.1.3 RDBMS到Hive

4.2 導出數據

4.2.1 Hive/HDFS到RDBMS(本質上都是HDFS到RDBMS)

4.3 腳本打包

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

Hadoop生態圈（七）：Sqoop

Hadoop生態圈（三）：MapReduce

spark學習（四）：共享變量及一些優化

Hadoop生態圈（八）：Flume

Hadoop生態圈（五）：Zookeeper

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結