sqoop框架原理及基本操作

原創

zhongwen7710

2020-02-24 03:40

1、Sqoop是什麼

Sqoop:SQL-to-Hadoop

傳統數據庫與Hadoop間數據同步工具

利用Mapreduce分佈式批處理，加快了數據傳輸速度，保證了容錯性

2、Sqoop1架構

sqoop1 import原理：
從傳統數據庫獲取元數據信息(schema、table、field、field type)，把導入功能轉換爲只有Map的Mapreduce作業，在mapreduce中有很多map，每個map讀一片數據，進而並行的完成數據的拷貝。

sqoop1 export原理：
獲取導出表的schema、meta信息，和Hadoop中的字段match；多個map only作業同時運行，完成hdfs中數據導出到關係型數據庫中。

3、sqoop1常用用法

1)sqoop import toHDFS:

[plain]view
plaincopy

sqoop import \    

--connect jdbc:mysql://mysql.example.com/sqoop \    

--username sqoop \    

--password sqoop \    

--table cities    

--where "country = 'USA'"    

--target-dir /etl/input/cities    

--warehouse-dir /etl/input/    

--num-mappers 10    

--null-string '\\N' \    

--null-non-string '\\N'    

--incremental append \     

--check-column id \     

--last-value 1

說明：
--connnect: 指定JDBC URL
--username/password：mysql數據庫的用戶名
--table：要讀取的數據庫表

--where:導入數據的過濾條件

--target-dir：HDFS中導入表的存放目錄

--warehouse-dir：指定表存放的父目錄，只需要指定一次，下次存放時會在該目錄下自動以該表名命名

--num-mappers：併發的map數

--null-string：null值時，HDFS存儲爲N

--null-non-string：非字符類型的字段爲空時，存儲爲N

--incremental append或lastmodified：自動增量方式

--check-column

--last-value：上一次導入的最後一個值

2) sqoop import to Hbase

[plain]view
plaincopy

bin/sqoop import  \  

--connect "jdbc:mysql://localhost/mytest"  \  

--username "root"  \  

--password "aaa"  \  

--table "student"  \  

--hbase-create-table  \  

--hbase-table student  \  

--column-family info  \  

--hbase-row-key id

3）sqoop export

[plain]view
plaincopy

sqoop export \   

--connect jdbc:mysql://mysql.example.com/sqoop \   

--username sqoop \   

--password sqoop \   

--table cities \   

--export-dir cities \  

--input-fields-terminated-by "\001"   

--columns id,name  

--batch  

-Dsqoop.export.records.per.statement=10  //批量更新，每隔10條提交一次  

--staging-table staging_cities  //先把數據導入到這個臨時表staging_cities，確定所有導入成功後，一次性重命名爲正確的表,保證原子性  

--update-key id  

--update-mode allowinsert

4、Sqoop1存在的問題

基於命令行的操作方式易於出錯，且不安全；
數據傳輸和數據格式是緊耦合的，這使得connector無法支持所有數據格式；
安全密鑰是暴露出來的，非常不安全
Sqoop安裝需要root權限
Connector必須符合JDBC模型，並使用通用的JDBC詞彙

5、常用注意點：

密碼保護方法：1）加參數-P，執行時要求終端輸入

2）參數--password-file my-sqoop-password，指定密碼文件的路徑，密碼防到文件，文件只讀，只有自己可讀的

非文本導入，比如圖片、視頻等，使用--as-sequencefile以sequencefile保存到HDFS上
也可以保存成avrodatafile格式，--as-avrodatafile

6、參考

http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html（官網手冊，很詳細）

http://pan.baidu.com/share/link?shareid=1639527429&uk=1678247570&fid=1399679120(sqoop cookbook書籍)

http://blog.csdn.net/woshiwanxin102213/article/details/18657785

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sqoop框架原理及基本操作

1、Sqoop是什麼

2、Sqoop1架構

3、sqoop1常用用法

1)sqoop import toHDFS:

4、Sqoop1存在的問題

5、常用注意點：

6、參考

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

Hadoop之YARN相關知識點彙總

如何將照片中的文字轉變成可編輯的文章（如何將書上的文字轉變爲可編輯的文字）

很有意思的一篇文章——寫小論文論（轉自吳志峯教授的blog_寫不出論文的幾種人）

(特重要，請注意)畢業N年後，請不要被檔案煩死

實踐部署與使用apache kafka框架技術博文資料彙總

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結