一,sqoop介紹

1.1 sqoop簡介

Sqoop是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞，可以將一個關係型數據庫（例如： MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。

Sqoop項目開始於2009年，最早是作爲Hadoop的一個第三方模塊存在，後來爲了讓使用者能夠快速部署，也爲了讓開發人員能夠更快速的迭代開發，Sqoop獨立成爲一個Apache項目。

Sqoop2的最新版本是1.99.7。請注意，2與1不兼容，且特徵不完整，它並不打算用於生產部署。

1.2 sqoop原理

將導入或導出命令翻譯成mapreduce程序來實現。

在翻譯出的mapreduce中主要是對inputformat和outputformat進行定製。

二,Sqoop安裝

安裝Sqoop的前提是已經具備Java和Hadoop的環境。

2.1 下載並解壓

下載地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/
上傳安裝包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虛擬機中

解壓sqoop安裝包到指定目錄，如：

$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

2.2 修改配置文件

Sqoop的配置文件與大多數大數據框架類似，在sqoop根目錄下的conf目錄中。

重命名配置文件

$ mv sqoop-env-template.sh sqoop-env.sh

修改配置文件

sqoop-env.sh

export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/hive
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase

2.3 拷貝JDBC驅動

拷貝jdbc驅動到sqoop的lib目錄下，如：

$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

2.4 驗證Sqoop

我們可以通過某一個command來驗證sqoop配置是否正確：

$ bin/sqoop help

出現一些Warning警告（警告信息已省略），並伴隨着幫助命令的輸出：

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table     Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables     Import tables from a database to HDFS
  import-mainframe    Import datasets from a mainframe server to HDFS
  job                Work with saved jobs
  list-databases        List available databases on a server
  list-tables           List available tables in a database
  merge              Merge results of incremental imports
  metastore           Run a standalone Sqoop metastore
  version            Display version information

2.5 測試Sqoop是否能夠成功連接數據庫

$ bin/sqoop list-databases --connect jdbc:mysql://cm1:3306/ --username root --password 123456

出現如下輸出：

[root@cm1 conf]# sqoop list-databases --connect jdbc:mysql://cm1:3306/ --username root --password 123456
Warning: /opt/cloudera/parcels/CDH-5.16.2-1.cdh5.16.2.p0.8/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
19/12/04 12:54:44 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.16.2
19/12/04 12:54:44 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.
19/12/04 12:54:45 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
information_schema
am
cm
company
hue
metastore
mysql
nav_as
nav_ms
oozie
performance_schema
rm
sentry

三,Sqoop的簡單使用案例

3.1 導入數據

在Sqoop中，“導入”概念指：從非大數據集羣（RDBMS）向大數據集羣（HDFS，HIVE，HBASE）中傳輸數據，叫做：導入，即使用import關鍵字。

3.1.1 RDBMS到HDFS

確定Mysql服務開啓正常

在Mysql中新建一張表並插入一些數據

$ mysql -uroot -p123456
mysql> create database company;
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
mysql> insert into company.staff(name, sex) values('Thomas', 'Male');
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

導入數據

1) 全部導入

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

2）查詢導入

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

提示：must contain ‘$CONDITIONS’ in WHERE clause.

如果query後使用的是雙引號，則$CONDITIONS前必須加轉移符，防止shell識別爲自己的變量。

3）導入指定列

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

提示：columns中如果涉及到多列，用逗號分隔，分隔時不要添加空格

4）使用sqoop關鍵字篩選查詢導入數據

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"

3.1.2 RDBMS到Hive

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

提示：該過程分爲兩步:

第一步將數據導入到HDFS
第二步將導入到HDFS的數據遷移到Hive倉庫，第一步默認的臨時目錄是/user/atguigu/表名

3.1.3 RDBMS到Hbase

$ bin/sqoop import \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--table staff \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

提示：sqoop1.4.6只支持HBase1.0.1之前的版本的自動創建HBase表的功能

解決方案：手動創建HBase表

hbase> create 'hbase_company','info'

在HBase中scan這張表得到如下內容

hbase> scan 'hbase_company'

3.2 導出數據

在Sqoop中，“導出”概念指：從大數據集羣（HDFS，HIVE，HBASE）向非大數據集羣（RDBMS）中傳輸數據，叫做：導出，即使用export關鍵字。

3.2.1 HIVE/HDFS到RDBMS

sqoop export \
--connect jdbc:mysql://cm1:3306/company \
--username root \
--password 123456 \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"

提示：Mysql中如果表不存在，不會自動創建

3.3 腳本打包

使用opt格式的文件打包sqoop命令，然後執行

1) 創建一個.opt文件

$ mkdir opt
$ touch opt/job_HDFS2RDBMS.opt

2) 編寫sqoop腳本

$ vi opt/job_HDFS2RDBMS.opt

export
--connect
jdbc:mysql://cm1:3306/company
--username
root
--password
123456
--table
staff
--num-mappers
1
--export-dir
/user/hive/warehouse/staff_hive
--input-fields-terminated-by
"\t"

3) 執行該腳本

$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

四,Sqoop一些常用命令及參數

4.1 常用命令列舉

這裏給大家列出來了一部分Sqoop操作時的常用參數，以供參考，需要深入學習的可以參看對應類的源代碼。

序號	命令	類	說明
1	import	ImportTool	將數據導入到集羣
2	export	ExportTool	將集羣數據導出
3	codegen	CodeGenTool	獲取數據庫中某張表數據生成Java並打包Jar
4	create-hive-table	CreateHiveTableTool	創建Hive表
5	eval	EvalSqlTool	查看SQL執行結果
6	import-all-tables	ImportAllTablesTool	導入某個數據庫下所有表到HDFS中
7	job	JobTool	用來生成一個sqoop的任務，生成後，該任務並不執行，除非使用命令執行該任務。
8	list-databases	ListDatabasesTool	列出所有數據庫名
9	list-tables	ListTablesTool	列出某個數據庫下所有表
10	merge	MergeTool	將HDFS中不同目錄下面的數據合在一起，並存放在指定的目錄中
11	metastore	MetastoreTool	記錄sqoop job的元數據信息，如果不啓動metastore實例，則默認的元數據存儲目錄爲：~/.sqoop，如果要更改存儲目錄，可以在配置文件sqoop-site.xml中進行更改。
12	help	HelpTool	打印sqoop幫助信息
13	version	VersionTool	打印sqoop版本信息

4.2 命令&參數詳解

剛纔列舉了一些Sqoop的常用命令，對於不同的命令，有不同的參數，讓我們來一一列舉說明。
首先來我們來介紹一下公用的參數，所謂公用參數，就是大多數命令都支持的參數。

4.2.1 公用參數：數據庫連接

序號	參數	說明
1	–connect	連接關係型數據庫的URL
2	–connection-manager	指定要使用的連接管理類
3	–driver	Hadoop根目錄
4	–help	打印幫助信息
5	–password	連接數據庫的密碼
6	–username	連接數據庫的用戶名
7	–verbose	在控制檯打印出詳細信息

4.2.2 公用參數：import

序號	參數	說明
1	–enclosed-by <char>	給字段值前加上指定的字符
2	–escaped-by <char>	對字段中的雙引號加轉義符
3	–fields-terminated-by <char>	設定每個字段是以什麼符號作爲結束，默認爲逗號
4	–lines-terminated-by <char>	設定每行記錄之間的分隔符，默認是\n
5	–mysql-delimiters	Mysql默認的分隔符設置，字段之間以逗號分隔，行之間以\n分隔，默認轉義符是\，字段值以單引號包裹。
6	–optionally-enclosed-by <char>	給帶有雙引號或單引號的字段值前後加上指定字符。

4.2.3 公用參數：export

序號	參數	說明
1	–input-enclosed-by <char>	對字段值前後加上指定字符
2	–input-escaped-by <char>	對含有轉移符的字段做轉義處理
3	–input-fields-terminated-by <char>	字段之間的分隔符
4	–input-lines-terminated-by <char>	行之間的分隔符
5	–input-optionally-enclosed-by <char>	給帶有雙引號或單引號的字段前後加上指定字符

4.2.4 公用參數：hive

序號	參數	說明
1	–hive-delims-replacement <arg>	用自定義的字符串替換掉數據中的\r\n和\013 \010等字符
2	–hive-drop-import-delims	在導入數據到hive時，去掉數據中的\r\n\013\010這樣的字符
3	–map-column-hive <arg>	生成hive表時，可以更改生成字段的數據類型
4	–hive-partition-key	創建分區，後面直接跟分區名，分區字段的默認類型爲string
5	–hive-partition-value <v>	導入數據時，指定某個分區的值
6	–hive-home <dir>	hive的安裝目錄，可以通過該參數覆蓋之前默認配置的目錄
7	–hive-import	將數據從關係數據庫中導入到hive表中
8	–hive-overwrite	覆蓋掉在hive表中已經存在的數據
9	–create-hive-table	默認是false，即，如果目標表已經存在了，那麼創建任務失敗。
10	–hive-table	後面接要創建的hive表,默認使用MySQL的表名
11	–table	指定關係數據庫的表名

公用參數介紹完之後，我們來按照命令介紹命令對應的特有參數。

4.2.5 命令&參數：import

將關係型數據庫中的數據導入到HDFS（包括Hive，HBase）中，如果導入的是Hive，那麼當Hive中沒有對應表時，則自動創建。

1) 命令：

如：導入數據到hive中

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--hive-import

如：增量導入數據到hive中，mode=append

append導入：
$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/staff_hive \
--check-column id \
--incremental append \
--last-value 3

提示：append不能與–hive-等參數同時使用（Append mode for hive imports is not yet supported. Please remove the parameter --append-mode）

如：增量導入數據到hdfs中，mode=lastmodified

# 先在mysql中建表並插入幾條數據：
mysql> create table company.staff_timestamp(id int(4), name varchar(255), sex varchar(255), last_modified timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);
mysql> insert into company.staff_timestamp (id, name, sex) values(1, 'AAA', 'female');
mysql> insert into company.staff_timestamp (id, name, sex) values(2, 'BBB', 'female');

# 先導入一部分數據：
$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--delete-target-dir \
--m 1

# 再增量導入一部分數據：
mysql> insert into company.staff_timestamp (id, name, sex) values(3, 'CCC', 'female');
$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff_timestamp \
--check-column last_modified \
--incremental lastmodified \
--last-value "2017-09-28 22:20:38" \
--m 1 \
--append

提示：使用lastmodified方式導入數據要指定增量數據是要--append（追加）還是要--merge-key（合併）

提示：last-value指定的值是會包含於增量導入的數據中

2) 參數：

序號	參數	說明
1	–append	將數據追加到HDFS中已經存在的DataSet中，如果使用該參數，sqoop會把數據先導入到臨時文件目錄，再合併。
2	–as-avrodatafile	將數據導入到一個Avro數據文件中
3	–as-sequencefile	將數據導入到一個sequence文件中
4	–as-textfile	將數據導入到一個普通文本文件中
5	–boundary-query <statement>	邊界查詢，導入的數據爲該參數的值（一條sql語句）所執行的結果區間內的數據。
6	–columns <col1, col2, col3>	指定要導入的字段
7	–direct	直接導入模式，使用的是關係數據庫自帶的導入導出工具，以便加快導入導出過程。
8	–direct-split-size	在使用上面direct直接導入的基礎上，對導入的流按字節分塊，即達到該閾值就產生一個新的文件
9	–inline-lob-limit	設定大對象數據類型的最大值
10	–m或–num-mappers	啓動N個map來並行導入數據，默認4個。
11	–query或–e <statement>	將查詢結果的數據導入，使用時必須伴隨參–target-dir，–hive-table，如果查詢中有where條件，則條件後必須加上$CONDITIONS關鍵字
12	–split-by <column-name>	按照某一列來切分表的工作單元，不能與–autoreset-to-one-mapper連用（請參考官方文檔）
13	–table <table-name>	關係數據庫的表名
14	–target-dir <dir>	指定HDFS路徑
15	–warehouse-dir <dir>	與14參數不能同時使用，導入數據到HDFS時指定的目錄
16	–where	從關係數據庫導入數據時的查詢條件
17	–z或–compress	允許壓縮
18	–compression-codec	指定hadoop壓縮編碼類，默認爲gzip(Use Hadoop codec default gzip)
19	–null-string <null-string>	string類型的列如果null，替換爲指定字符串
20	–null-non-string <null-string>	非string類型的列如果null，替換爲指定字符串
21	–check-column <col>	作爲增量導入判斷的列名
22	–incremental <mode>	mode：append或lastmodified
23	–last-value <value>	指定某一個值，用於標記增量導入的位置

4.2.6 命令&參數：export

從HDFS（包括Hive和HBase）中獎數據導出到關係型數據庫中。

1) 命令：

如：

$ bin/sqoop export \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--export-dir /user/company \
--input-fields-terminated-by "\t" \
--num-mappers 1

2) 參數：

序號	參數	說明
1	–direct	利用數據庫自帶的導入導出工具，以便於提高效率
2	–export-dir <dir>	存放數據的HDFS的源目錄
3	-m或–num-mappers <n>	啓動N個map來並行導入數據，默認4個
4	–table <table-name>	指定導出到哪個RDBMS中的表
5	–update-key <col-name>	對某一列的字段進行更新操作
6	–update-mode <mode>	updateonlyallowinsert(默認)
7	–input-null-string <null-string>	請參考import該類似參數說明
8	–input-null-non-string <null-string>	請參考import該類似參數說明
9	–staging-table <staging-table-name>	創建一張臨時表，用於存放所有事務的結果，然後將所有事務結果一次性導入到目標表中，防止錯誤。
10	–clear-staging-table	如果第9個參數非空，則可以在導出操作執行前，清空臨時事務結果表

4.2.7 命令&參數：codegen

將關係型數據庫中的表映射爲一個Java類，在該類中有各列對應的各個字段。

如：

$ bin/sqoop codegen \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--bindir /home/admin/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"

序號	參數	說明
1	–bindir <dir>	指定生成的Java文件、編譯成的class文件及將生成文件打包爲jar的文件輸出路徑
2	–class-name <name>	設定生成的Java文件指定的名稱
3	–outdir <dir>	生成Java文件存放的路徑
4	–package-name <name>	包名，如com.z，就會生成com和z兩級目錄
5	–input-null-non-string <null-str>	在生成的Java文件中，可以將null字符串或者不存在的字符串設置爲想要設定的值（例如空字符串）
6	–input-null-string <null-str>	將null字符串替換成想要替換的值（一般與5同時使用）
7	–map-column-java <arg>	數據庫字段在生成的Java文件中會映射成各種屬性，且默認的數據類型與數據庫類型保持對應關係。該參數可以改變默認類型，例如：–map-column-java id=long, name=String
8	–null-non-string <null-str>	在生成Java文件時，可以將不存在或者null的字符串設置爲其他值
9	–null-string <null-str>	在生成Java文件時，將null字符串設置爲其他值（一般與8同時使用）
10	–table <table-name>	對應關係數據庫中的表名，生成的Java文件中的各個屬性與該表的各個字段一一對應

4.2.8 命令&參數：create-hive-table

生成與關係數據庫表結構對應的hive表結構。

命令：

如：

$ bin/sqoop create-hive-table \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--hive-table hive_staff

參數：

序號	參數	說明
1	–hive-home <dir>	Hive的安裝目錄，可以通過該參數覆蓋掉默認的Hive目錄
2	–hive-overwrite	覆蓋掉在Hive表中已經存在的數據
3	–create-hive-table	默認是false，如果目標表已經存在了，那麼創建任務會失敗
4	–hive-table	後面接要創建的hive表
5	–table	指定關係數據庫的表名

4.2.9 命令&參數：eval

可以快速的使用SQL語句對關係型數據庫進行操作，經常用於在import數據之前，瞭解一下SQL語句是否正確，數據是否正常，並可以將結果顯示在控制檯。

命令：

如：

$ bin/sqoop eval \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--query "SELECT * FROM staff"

參數：

序號	參數	說明
1	–query或–e	後跟查詢的SQL語句

4.2.10 命令&參數：import-all-tables

可以將RDBMS中的所有表導入到HDFS中，每一個表都對應一個HDFS目錄

命令：

如：

$ bin/sqoop import-all-tables \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--warehouse-dir /all_tables

參數：

序號	參數	說明
1	–as-avrodatafile	這些參數的含義均和import對應的含義一致
2	–as-sequencefile	這些參數的含義均和import對應的含義一致
3	–as-textfile	這些參數的含義均和import對應的含義一致
4	–direct	這些參數的含義均和import對應的含義一致
5	–direct-split-size <n>	這些參數的含義均和import對應的含義一致
6	–inline-lob-limit <n>	這些參數的含義均和import對應的含義一致
7	–m或—num-mappers <n>	這些參數的含義均和import對應的含義一致
8	–warehouse-dir <dir>	這些參數的含義均和import對應的含義一致
9	-z或–compress	這些參數的含義均和import對應的含義一致
10	–compression-codec	這些參數的含義均和import對應的含義一致

4.2.11 命令&參數：job

用來生成一個sqoop任務，生成後不會立即執行，需要手動執行。

命令：

如：

$ bin/sqoop job \
 --create myjob -- import-all-tables \
 --connect jdbc:mysql://hadoop102:3306/company \
 --username root \
 --password 000000
 
$ bin/sqoop job \
--list

$ bin/sqoop job \
--exec myjob

提示：注意import-all-tables和它左邊的–之間有一個空格

提示：如果需要連接metastore，則–meta-connect jdbc:hsqldb:hsql://linux01:16000/sqoop

參數：

序號	參數	說明
1	–create <job-id>	創建job參數
2	–delete <job-id>	刪除一個job
3	–exec <job-id>	執行一個job
4	–help	顯示job幫助
5	–list	顯示job列表
6	–meta-connect <jdbc-uri>	用來連接metastore服務
7	–show <job-id>	顯示一個job的信息
8	–verbose	打印命令運行時的詳細信息

提示：在執行一個job時，如果需要手動輸入數據庫密碼，可以做如下優化

<property>
	<name>sqoop.metastore.client.record.password</name>
	<value>true</value>
	<description>If true, allow saved passwords in the metastore.</description>
</property>

4.2.12 命令&參數：list-databases

命令：

$ bin/sqoop list-databases \
--connect jdbc:mysql://hadoop102:3306/ \
--username root \
--password 000000

**參數：**與公用參數一樣

4.2.13 命令&參數：list-tables

命令：

$ bin/sqoop list-tables \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000

**參數：**與公用參數一樣

4.2.14 命令&參數：merge

將HDFS中不同目錄下面的數據合併在一起並放入指定目錄中

數據環境：

new_staff
1       AAA     male
2       BBB     male
3       CCC     male
4       DDD     male

old_staff
1       AAA     female
2       CCC     female
3       BBB     female
6       DDD     female

提示：上邊數據的列之間的分隔符應該爲\t，行與行之間的分割符爲\n，如果直接複製，請檢查之。

命令：

# 創建JavaBean：
$ bin/sqoop codegen \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--bindir /home/admin/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"

# 開始合併：
$ bin/sqoop merge \
--new-data /test/new/ \
--onto /test/old/ \
--target-dir /test/merged \
--jar-file /home/admin/Desktop/staff/Staff.jar \
--class-name Staff \
--merge-key id

# 結果：
1	AAA	MALE
2	BBB	MALE
3	CCC	MALE
4	DDD	MALE
6	DDD	FEMALE

參數：

序號	參數	說明
1	–new-data <path>	HDFS 待合併的數據目錄，合併後在新的數據集中保留
2	–onto <path>	HDFS合併後，重複的部分在新的數據集中被覆蓋
3	–merge-key <col>	合併鍵，一般是主鍵ID
4	–jar-file <file>	合併時引入的jar包，該jar包是通過Codegen工具生成的jar包
5	–class-name <class>	對應的表名或對象名，該class類是包含在jar包中的
6	–target-dir <path>	合併後的數據在HDFS裏存放的目錄

4.2.15 命令&參數：metastore

記錄了Sqoop job的元數據信息，如果不啓動該服務，那麼默認job元數據的存儲目錄爲~/.sqoop，可在sqoop-site.xml中修改。

命令：

如：啓動sqoop的metastore服務

$ bin/sqoop metastore

參數：

序號	參數	說明
1	–shutdown	關閉metastore

sqoop安裝和命令介紹

一,sqoop介紹

1.1 sqoop簡介

1.2 sqoop原理

二,Sqoop安裝

2.1 下載並解壓

2.2 修改配置文件

2.3 拷貝JDBC驅動

2.4 驗證Sqoop

2.5 測試Sqoop是否能夠成功連接數據庫

三,Sqoop的簡單使用案例

3.1 導入數據

3.1.1 RDBMS到HDFS

3.1.2 RDBMS到Hive

3.1.3 RDBMS到Hbase

3.2 導出數據

3.2.1 HIVE/HDFS到RDBMS

3.3 腳本打包

四,Sqoop一些常用命令及參數

4.1 常用命令列舉

4.2 命令&參數詳解

4.2.1 公用參數：數據庫連接

4.2.2 公用參數：import

4.2.3 公用參數：export

4.2.4 公用參數：hive

4.2.5 命令&參數：import

4.2.6 命令&參數：export

4.2.7 命令&參數：codegen

4.2.8 命令&參數：create-hive-table

4.2.9 命令&參數：eval

4.2.10 命令&參數：import-all-tables

4.2.11 命令&參數：job

4.2.12 命令&參數：list-databases

4.2.13 命令&參數：list-tables

4.2.14 命令&參數：merge

4.2.15 命令&參數：metastore