3.sqoop過濾數據導入hive表(where和query條件)

原創

2020-06-13 08:44

1.導入表數據子集到hdfs(可以改成導入到hive,舉一反三)

導入表使用Sqoop導入工具，"where"子句的一個子集。它執行在各自的數據庫服務器相應的SQL查詢，並將結果存儲在HDFS的目標目錄。
按照條件進行查找，通過--where參數來查找表emp當中dept字段的值爲 TP 的所有數據導入到hdfs上面去

sqoop import \
--connect jdbc:mysql://node2:3306/userdb \
--username root --password 123456 --table emp \
--target-dir /sqoop/emp_where -m 1  --delete-target-dir \
--where "dept = 'TP'"

提交查看HDFS上的目錄看是否有數據生成

2.sql語句查找導入hdfs(可以到到hive,自己嘗試)

我們還可以通過 –query參數來指定我們的sql語句，通過sql語句來過濾我們的數據進行導入

sqoop import \
--connect jdbc:mysql://node2:3306/userdb \
--username root --password 123456 \
--target-dir /sqoop/emp_sql -m 1  --delete-target-dir \
--query 'select * from emp where salary >30000 and $CONDITIONS'

提交查看HDFS上的目錄看是否有數據生成

$CONTITONS是linux系統的變量，如果你想通過並行的方式導入結果，每個map task需要執行sql查詢語句的副本，結果會根據sqoop推測的邊界條件分區。query必須包含$CONDITIONS。這樣每個scoop程序都會被替換爲一個獨立的條件。同時你必須指定--split-by '字段'，後期是按照字段進行數據劃分，最後可以達到多個MapTask並行運行。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

播放全鏈路壓測實踐之路

01 背景播放鏈路是愛奇藝最重要的業務，鏈路穩定性極其重要，隨着愛奇藝用戶的不斷增長和熱播劇集的推廣，播放鏈路往往面臨着難以預估的用戶流量的突增，考

愛奇藝技術產品團隊

2024-05-14 02:28:30

安裝Mysql時遇到的一些疑難雜症！！！

安裝MYSQL時的一系列三大問題與三大解決方法問題一：問題二：問題三：問題一：在安裝時候輸入 net start mysql 時候報錯爲： net不是內部或外部命令也不是可運行。解決方法：環境變量的問題

2024-05-14 02:04:37

TOP SQL監控之MySQL篇

MySQL的監控方式也有很多種：慢查詢日誌slow_log 優點：MySQL自帶，記錄的慢SQL語句完整；缺點：需要登錄mysql服務器；如果slow_log文件太大，還需要利用其他工具分析日誌，比如mysqldumpslow； p

2024-05-14 01:47:36

binlog的刷盤策略

mysql只有在事務提交的時候纔會記錄binlog日誌，此時日誌還在內存中，那binlog是什麼時候被刷到磁盤中的呢？ mysql通過sync_binlog控制刷盤，取值範圍0~n 0：不強制要求刷盤，由系統自行判斷什麼時候將binlog寫

2024-05-14 00:46:36

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

樹莓派真是個讓人慾罷不能的“小妖精”

大晚上不睡覺、枸杞泡起來@我一個月之前、自從入了樹莓派4b 8g板之後、就無法自拔，上班除了開發業務代碼和搭建內部UI組件庫之外，就是不亦樂乎的學習docker、mysql、mongodb、php、python、frp等，採購了阿里雲E

2024-05-14 00:37:28

分析 MySQL 中的內存使用情況

瞭解如何可視化 MySQL 連接的內存使用情況。作者：Benjamin Dicken 本文和封面來源：https://planetscale.com/blog/，愛可生開源社區翻譯。本文約 3000 字，預計閱讀需要 10 分鐘。

2024-05-14 00:04:20

mysql存量表數據碎片與索引碎片優化

背景最近領導分配了個任務，測試sit環境一些功能相比之前慢了許多，需要優化一下。問題排查過程瀏覽器F12查看相關接口的響應，看到底是哪個接口反應慢，根據互聯網的要求，頁面3秒還沒有顯示出來，用戶體驗會非常差。查看相關代碼的提交

2024-05-13 21:34:00

消費者太多！RocketMQ又炸了！

去年寫過一篇《Topic數量太多！RocketMQ炸了！》，大家評價還不錯。結果，2024年的開頭，我們的RocketMQ又炸了！ 1、問題現象先說明下RocketMQ版本， 4.6.0的老版本了。線下環境客戶端啓動會頻

2024-05-13 12:34:50

PingCAP 戴濤：構建面向未來的金融核心系統

作者：戴濤導讀近日，平凱星辰解決方案技術部總經理戴濤在 2024 數據技術嘉年華活動中，做了主題爲“構建面向未來的金融核心系統”的分享，本文爲戴濤演講實錄的全文。文章分析了中國金融行業的發展趨勢，並且基於這些趨勢對數據庫選擇從架構、運

2024-05-13 11:16:37

TiDB + ES：轉轉業財系統億級數據存儲優化實踐

以下文章來源於轉轉技術，作者戴美琪導讀本文詳細介紹了轉轉業財系統億級數據存儲優化的實踐。面對系統數據量大、慢查詢多等挑戰，轉轉業財採取了 TiDB 方案優化數據量問題，同時引入 Elasticsearch（ES）解決慢查詢難題。實踐表

2024-05-13 11:16:34

淺析MySQL代價模型：告別盲目使用EXPLAIN，提前預知索引優化策略| 京東零售技術團隊

背景在 MySQL 中，當我們爲表創建了一個或多個索引後，通常需要在索引定義完成後，根據具體的數據情況執行 EXPLAIN 命令，才能觀察到數據庫實際使用哪個索引、是否使用索引。這使得我們在添加新索引之前，無法提前預知數據庫是否能使用期望

2024-05-10 12:41:34

【京東雲新品發佈月刊】2024年4月產品動態

京東雲4月產品動態： 1.【言犀AI虛擬主播】"採銷東哥"數字人是怎樣練成的？ “大家好，好久不見，我是你們的老朋友東哥……”面對衆網友喊話開直播，劉強東以新的形式與大家見面。4月16日下午6點18分，由京東雲言犀打造的“採銷東哥”AI數字

2024-05-10 12:41:31

從零開始學架構V2-架構設計基礎知識-3

說明在瞭解完軟件架構的基本設計原則、涉及流程，還需要補充一下架構設計中一些常見的基礎知識，分爲基礎的技術知識、常見的軟件架構都有哪些，本章節介紹的是基礎知識。一、數據庫單機的性能總是有限的，當業務發展到一定規模後，單機性能瓶頸問題就會

2024-05-10 01:31:57

MySQL 通過 systemd 啓動時 hang 住了……

mysqld：哥，我起不來了…… 作者：賁紹華，愛可生研發中心工程師，負責項目的需求與維護工作。其他身份：柯基鏟屎官。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。本文約 2100 字，預計閱讀需要 7

2024-05-10 00:35:39

24小時熱門文章

最新文章

最新評論文章