大數據-sqoop（六）

Sqoop一些常用命令及參數

常用命令列舉

命令	類	說明
import	ImportTool	將數據導入到集羣
export	ExportTool	將集羣數據導出
codegen	CodeGenTool	獲取數據庫中某張表數據生成Java並打包Jar
create-hive-table	CreateHiveTableTool	創建Hive表
eval	EvalSqlTool	查看SQL執行結果
import-all-tables	ImportAllTablesTool	導入某個數據庫下所有表到HDFS中
job	JobTool	用來生成一個sqoop的任務，生成後，該任務並不執行，除非使用命令執行該任務。
list-databases	ListDatabasesTool	列出所有數據庫名
list-tables	ListTablesTool	列出某個數據庫下所有表
merge	MergeTool	將HDFS中不同目錄下面的數據合在一起，並存放在指定的目錄中
metastore	MetastoreTool	記錄sqoop job的元數據信息，如果不啓動metastore實例，則默認的元數據存儲目錄爲：~/.sqoop，如果要更改存儲目錄，可以在配置文件sqoop-site.xml中進行更改。
help	HelpTool	打印sqoop幫助信息
version	VersionTool	打印sqoop版本信息

命令&參數詳解

剛纔列舉了一些Sqoop的常用命令，對於不同的命令，有不同的參數，讓我們來一一列舉說明。

首先來我們來介紹一下公用的參數，所謂公用參數，就是大多數命令都支持的參數。

1、公用參數：數據庫連接

序號	參數	說明
1	--connect	連接關係型數據庫的URL
2	--connection-manager	指定要使用的連接管理類
3	--driver	JDBC的driver class
4	--help	打印幫助信息
5	--password	連接數據庫的密碼
6	--username	連接數據庫的用戶名
7	--verbose	在控制檯打印出詳細信息

2、公用參數：import

序號	參數	說明
1	--enclosed-by <char>	給字段值前後加上指定的字符
2	--escaped-by <char>	對字段中的雙引號加轉義符
3	--fields-terminated-by <char>	設定每個字段是以什麼符號作爲結束，默認爲逗號
4	--lines-terminated-by <char>	設定每行記錄之間的分隔符，默認是\n
5	--mysql-delimiters	Mysql默認的分隔符設置，字段之間以逗號分隔，行之間以\n分隔，默認轉義符是\，字段值以單引號包裹。
6	--optionally-enclosed-by <char>	給帶有雙引號或單引號的字段值前後加上指定字符。

3、公用參數：export

序號	參數	說明
1	--input-enclosed-by <char>	對字段值前後加上指定字符
2	--input-escaped-by <char>	對含有轉移符的字段做轉義處理
3	--input-fields-terminated-by <char>	字段之間的分隔符
4	--input-lines-terminated-by <char>	行之間的分隔符
5	--input-optionally-enclosed-by <char>	給帶有雙引號或單引號的字段前後加上指定字符

4、公用參數：hive

序號	參數	說明
1	--hive-delims-replacement <arg>	用自定義的字符串替換掉數據中的\r\n和\013 \010等字符
2	--hive-drop-import-delims	在導入數據到hive時，去掉數據中的\r\n\013\010這樣的字符
3	--map-column-hive <map>	生成hive表時，可以更改生成字段的數據類型
4	--hive-partition-key	創建分區，後面直接跟分區名，分區字段的默認類型爲string
5	--hive-partition-value <v>	導入數據時，指定某個分區的值
6	--hive-home <dir>	hive的安裝目錄，可以通過該參數覆蓋之前默認配置的目錄
7	--hive-import	將數據從關係數據庫中導入到hive表中
8	--hive-overwrite	覆蓋掉在hive表中已經存在的數據
9	--create-hive-table	默認是false，即，如果目標表已經存在了，那麼創建任務失敗。
10	--hive-table	後面接要創建的hive表,默認使用MySQL的表名
11	--table	指定關係數據庫的表名

公用參數介紹完之後，我們來按照命令介紹命令對應的特有參數。

5、命令&參數：import

將關係型數據庫中的數據導入到HDFS（包括Hive，HBase）中，如果導入的是Hive，那麼當Hive中沒有對應表時，則自動創建。

1) 命令：

如：導入數據到hive中

$ bin/sqoop import \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp \
--hive-import

如：增量導入數據到hive中，mode=append

append導入：

$ bin/sqoop import \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/emp \
--check-column id \
--incremental append \
--last-value 3

易錯提醒：append不能與--hive-等參數同時使用（Append mode for hive imports is not yet supported. Please remove the parameter --append-mode）

如：增量導入數據到hdfs中，mode=lastmodified

先在mysql中建表並插入幾條數據：
mysql> create table company.staff_timestamp(id int(4), name varchar(255), sex varchar(255), last_modified timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);
mysql> insert into company.staff_timestamp (id, name, sex) values(1, 'AAA', 'female');
mysql> insert into company.staff_timestamp (id, name, sex) values(2, 'BBB', 'female');
先導入一部分數據：
$ bin/sqoop import \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp_conn \
--delete-target-dir \
--m 1
再增量導入一部分數據：
mysql> insert into company.staff_timestamp (id, name, sex) values(3, 'CCC', 'female');
$ bin/sqoop import \
--connect jdbc:mysql://node03:3306/userdb \

易錯提醒：--incremental lastmodified模式下，last-value指定的值是會包含於增量導入的數據中。易錯提醒：使用lastmodified方式導入數據要指定增量數據是要--append（追加）還是要--merge-key（合併）

2) 參數：

序號	參數	說明
1	--append	將數據追加到HDFS中已經存在的DataSet中，如果使用該參數，sqoop會把數據先導入到臨時文件目錄，再合併。
2	--as-avrodatafile	將數據導入到一個Avro數據文件中
3	--as-sequencefile	將數據導入到一個sequence文件中
4	--as-textfile	將數據導入到一個普通文本文件中
5	--boundary-query <statement>	邊界查詢，導入的數據爲該參數的值（一條sql語句）所執行的結果區間內的數據。
6	--columns <col1, col2, col3>	指定要導入的字段
7	--direct	直接導入模式，使用的是關係數據庫自帶的導入導出工具，以便加快導入導出過程。
8	--direct-split-size	在使用上面direct直接導入的基礎上，對導入的流按字節分塊，即達到該閾值就產生一個新的文件
9	--inline-lob-limit	設定大對象數據類型的最大值
10	--m或–num-mappers	啓動N個map來並行導入數據，默認4個。
11	--query或--e <statement>	將查詢結果的數據導入，使用時必須伴隨參--target-dir，--hive-table，如果查詢中有where條件，則條件後必須加上$CONDITIONS關鍵字
12	--split-by <column-name>	按照某一列來切分表的工作單元，不能與--autoreset-to-one-mapper連用（請參考官方文檔）
13	--table <table-name>	關係數據庫的表名
14	--target-dir <dir>	指定HDFS路徑
15	--warehouse-dir <dir>	與14參數不能同時使用，導入數據到HDFS時指定的目錄
16	--where	從關係數據庫導入數據時的查詢條件
17	--z或--compress	允許壓縮
18	--compression-codec	指定hadoop壓縮編碼類，默認爲gzip(Use Hadoop codec default gzip)
19	--null-string <null-string>	string類型的列如果null，替換爲指定字符串
20	--null-non-string <null-string>	非string類型的列如果null，替換爲指定字符串
21	--check-column <col>	作爲增量導入判斷的列名
22	--incremental <mode>	mode：append或lastmodified
23	--last-value <value>	指定某一個值，用於標記增量導入的位置

6、命令&參數：export

從HDFS（包括Hive和HBase）中獎數據導出到關係型數據庫中。

1) 命令：

如：

$ bin/sqoop export \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp_add \
--export-dir /user/company \
--input-fields-terminated-by "\t" \
--num-mappers 1

2) 參數：

序號	參數	說明
1	--direct	利用數據庫自帶的導入導出工具，以便於提高效率
2	--export-dir <dir>	存放數據的HDFS的源目錄
3	-m或--num-mappers <n>	啓動N個map來並行導入數據，默認4個
4	--table <table-name>	指定導出到哪個RDBMS中的表
5	--update-key <col-name>	對某一列的字段進行更新操作
6	--update-mode <mode>	updateonly allowinsert(默認)
7	--input-null-string <null-string>	請參考import該類似參數說明
8	--input-null-non-string <null-string>	請參考import該類似參數說明
9	--staging-table <staging-table-name>	創建一張臨時表，用於存放所有事務的結果，然後將所有事務結果一次性導入到目標表中，防止錯誤。
10	--clear-staging-table	如果第9個參數非空，則可以在導出操作執行前，清空臨時事務結果表

7、命令&參數：codegen

將關係型數據庫中的表映射爲一個Java類，在該類中有各列對應的各個字段。

如：

$ bin/sqoop codegen \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp_add \
--bindir /home/admin/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"

序號	參數	說明
1	--bindir <dir>	指定生成的Java文件、編譯成的class文件及將生成文件打包爲jar的文件輸出路徑
2	--class-name <name>	設定生成的Java文件指定的名稱
3	--outdir <dir>	生成Java文件存放的路徑
4	--package-name <name>	包名，如com.z，就會生成com和z兩級目錄
5	--input-null-non-string <null-str>	在生成的Java文件中，可以將null字符串或者不存在的字符串設置爲想要設定的值（例如空字符串）
6	--input-null-string <null-str>	將null字符串替換成想要替換的值（一般與5同時使用）
7	--map-column-java <arg>	數據庫字段在生成的Java文件中會映射成各種屬性，且默認的數據類型與數據庫類型保持對應關係。該參數可以改變默認類型，例如：--map-column-java id=long, name=String
8	--null-non-string <null-str>	在生成Java文件時，可以將不存在或者null的字符串設置爲其他值
9	--null-string <null-str>	在生成Java文件時，將null字符串設置爲其他值（一般與8同時使用）
10	--table <table-name>	對應關係數據庫中的表名，生成的Java文件中的各個屬性與該表的各個字段一一對應

8、命令&參數：create-hive-table

生成與關係數據庫表結構對應的hive表結構。

命令：

如：

$ bin/sqoop create-hive-table \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp_add \
--hive-table emp_add

參數：

序號	參數	說明
1	--hive-home <dir>	Hive的安裝目錄，可以通過該參數覆蓋掉默認的Hive目錄
2	--hive-overwrite	覆蓋掉在Hive表中已經存在的數據
3	--create-hive-table	默認是false，如果目標表已經存在了，那麼創建任務會失敗
4	--hive-table	後面接要創建的hive表
5	--table	指定關係數據庫的表名

9、命令&參數：eval

可以快速的使用SQL語句對關係型數據庫進行操作，經常用於在import數據之前，瞭解一下SQL語句是否正確，數據是否正常，並可以將結果顯示在控制檯。

命令：

如：

$ bin/sqoop eval \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--query "SELECT * FROM emp"

參數：

序號	參數	說明
1	--query或--e	後跟查詢的SQL語句

10、命令&參數：import-all-tables

可以將RDBMS中的所有表導入到HDFS中，每一個表都對應一個HDFS目錄。

命令：

如：

$ bin/sqoop import-all-tables \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--warehouse-dir /all_tables

參數：

序號	參數	說明
1	--as-avrodatafile	這些參數的含義均和import對應的含義一致
2	--as-sequencefile
3	--as-textfile
4	--direct
5	--direct-split-size <n>
6	--inline-lob-limit <n>
7	--m或—num-mappers <n>
8	--warehouse-dir <dir>
9	-z或--compress
10	--compression-codec

11、命令&參數：job

用來生成一個sqoop任務，生成後不會立即執行，需要手動執行。

命令：

如：

$ bin/sqoop job \
 --create myjob -- import-all-tables \
 --connect jdbc:mysql://node03:3306/userdb \
 --username root \
 --password 123456
$ bin/sqoop job \
--list
$ bin/sqoop job \
--exec myjob

易錯提醒：注意import-all-tables和它左邊的--之間有一個空格

易錯提醒：如果需要連接metastore，則--meta-connect jdbc:hsqldb:hsql://node03:16000/sqoop

參數：

序號	參數	說明
1	--create <job-id>	創建job參數
2	--delete <job-id>	刪除一個job
3	--exec <job-id>	執行一個job
4	--help	顯示job幫助
5	--list	顯示job列表
6	--meta-connect <jdbc-uri>	用來連接metastore服務
7	--show <job-id>	顯示一個job的信息
8	--verbose	打印命令運行時的詳細信息

錯提醒：在執行一個job時，如果需要手動輸入數據庫密碼，可以做如下優化

<property>
    <name>sqoop.metastore.client.record.password</name>
    <value>true</value>
    <description>If true, allow saved passwords in the metastore.</description>
</property>

12、命令&參數：list-databases

命令：

如：

$ bin/sqoop list-databases \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456

參數：與公用參數一樣

13、命令&參數：list-tables

命令：

如：

$ bin/sqoop list-tables \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456

參數：與公用參數一樣

14、命令&參數：merge

將HDFS中不同目錄下面的數據合併在一起並放入指定目錄中。

數據環境：

new_staff
1       AAA     male
2       BBB     male
3       CCC     male
4       DDD     male

old_staff
1       AAA     female
2       CCC     female
3       BBB     female
6       DDD     female

易錯提醒：上邊數據的列之間的分隔符應該爲\t，行與行之間的分割符爲\n，如果直接複製，請檢查之。

命令：

如：

創建JavaBean：
$ bin/sqoop codegen \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--table emp_conn \
--bindir /home/admin/Desktop/staff \
--class-name EmpConn \
--fields-terminated-by "\t"

開始合併：
$ bin/sqoop merge \
--new-data /test/new/ \
--onto /test/old/ \
--target-dir /test/merged \
--jar-file /home/admin/Desktop/staff/EmpConn.jar \
--class-name Staff \
--merge-key id

結果：
1 AAA MALE
2 BBB MALE
3 CCC MALE
4 DDD MALE
6 DDD FEMALE

參數：

序號	參數	說明
1	--new-data <path>	HDFS 待合併的數據目錄，合併後在新的數據集中保留
2	--onto <path>	HDFS合併後，重複的部分在新的數據集中被覆蓋
3	--merge-key <col>	合併鍵，一般是主鍵ID
4	--jar-file <file>	合併時引入的jar包，該jar包是通過Codegen工具生成的jar包
5	--class-name <class>	對應的表名或對象名，該class類是包含在jar包中的
6	--target-dir <path>	合併後的數據在HDFS裏存放的目錄

15、命令&參數：metastore

記錄了Sqoop job的元數據信息，如果不啓動該服務，那麼默認job元數據的存儲目錄爲~/.sqoop，可在sqoop-site.xml中修改。

命令：

如：啓動sqoop的metastore服務

$ bin/sqoop metastore

參數：

序號	參數	說明
1	--shutdown	關閉metastore

大數據-sqoop（六）

大數據-sqoop（六）

Sqoop一些常用命令及參數

常用命令列舉

命令&參數詳解

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

大數據-impala（二）

MySQL索引篇（一）

大數據-Kafka（二）

大數據-sqoop（五）

大數據-sqoop（六）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結