3.sqoop过滤数据导入hive表(where和query条件)

原創

2020-06-13 08:44

1.导入表数据子集到hdfs(可以改成导入到hive,举一反三)

导入表使用Sqoop导入工具，"where"子句的一个子集。它执行在各自的数据库服务器相应的SQL查询，并将结果存储在HDFS的目标目录。
按照条件进行查找，通过--where参数来查找表emp当中dept字段的值为 TP 的所有数据导入到hdfs上面去

sqoop import \
--connect jdbc:mysql://node2:3306/userdb \
--username root --password 123456 --table emp \
--target-dir /sqoop/emp_where -m 1  --delete-target-dir \
--where "dept = 'TP'"

提交查看HDFS上的目录看是否有数据生成

2.sql语句查找导入hdfs(可以到到hive,自己尝试)

我们还可以通过 –query参数来指定我们的sql语句，通过sql语句来过滤我们的数据进行导入

sqoop import \
--connect jdbc:mysql://node2:3306/userdb \
--username root --password 123456 \
--target-dir /sqoop/emp_sql -m 1  --delete-target-dir \
--query 'select * from emp where salary >30000 and $CONDITIONS'

提交查看HDFS上的目录看是否有数据生成

$CONTITONS是linux系统的变量，如果你想通过并行的方式导入结果，每个map task需要执行sql查询语句的副本，结果会根据sqoop推测的边界条件分区。query必须包含$CONDITIONS。这样每个scoop程序都会被替换为一个独立的条件。同时你必须指定--split-by '字段'，后期是按照字段进行数据划分，最后可以达到多个MapTask并行运行。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ClickHouse内幕（1）数据存储与过滤机制

本文主要講述ClickHouse中的數據存儲結構，包括文件組織結構和索引結構，以及建立在其基礎上的數據過濾機制，從Part裁剪到Mark裁剪，最後到基於SIMD的行過濾機制。數據過濾機制實質上是構建在數據存儲格式之上的算法，所以在介紹過濾

2024-06-07 23:54:51

MySQL 核心模块揭秘 * 19 期 * 锁模块里有什么？什么样？

InnoDB 中管理表鎖和行鎖的鎖模塊，也就是傳說中的鎖子系統，在內存裏是什麼樣的？作者：操盛春，愛可生技術專家，公衆號『一樹一溪』作者，專注於研究 MySQL 和 OceanBase 源碼。愛可生開源社區出品，原創內容未經授權不得隨

2024-06-06 11:58:40

EMQX Enterprise 5.7 发布：新增会话持久化、消息 Schema 验证、规则引擎调试与追踪功能

EMQX Enterprise 5.7.0 版本現已正式發佈！在這個版本中，我們引入了一系列新的功能和改進，包括會話持久化、消息 Schema 驗證、規則引擎調試與追蹤測試等功能。此外，新版本還進行了多項改進以及 BUG 修復，進一步提升

2024-06-05 22:10:05

修复 MySQL 8.4 的 "mysql_native_password is not loaded" 插件未加载错误

修復 MySQL 8.4 的 "mysql_native_password is not loaded" 插件未加載錯誤將 mysql_native_password 用戶更新到 caching_sha2_password 在具有足夠權限

2024-06-04 14:30:04

告别内存OOM，解决MySQL内存增长问题

本文分享自華爲雲社區《【華爲雲MySQL技術專欄】MySQL內存增長問題分析案例》，作者：GaussDB 數據庫。前言在現網環境中，偶爾會遇到客戶實例內存OOM（Out Of Memory，即內存耗盡或溢出）的情況。MySQL數據庫

2024-06-04 11:09:29

第 53 期：MySQL 创建了用户却无法登陆

社區王牌專欄《一問一實驗：AI 版》全新改版歸來，得到了新老讀者們的關注。其中不乏對 ChatDBA 感興趣的讀者前來諮詢，表達了想試用體驗 ChatDBA 的意願，對此我們表示感謝 ?*。目前，ChatDBA 還在最後的準備階段，會盡快

2024-06-04 02:43:21

第 53 期：MySQL 创建了用户却无法登陆

社區王牌專欄《一問一實驗：AI 版》全新改版歸來，得到了新老讀者們的關注。其中不乏對 ChatDBA 感興趣的讀者前來諮詢，表達了想試用體驗 ChatDBA 的意願，對此我們表示感謝 ?*。目前，ChatDBA 還在最後的準備階段，會盡快

2024-06-04 02:43:03

pfinder实现原理揭秘

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:39:24

pfinder实现原理揭秘

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:37:09

pfinder实现原理揭秘

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:34:44

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

表鎖和行鎖都由鎖結構承載這些鎖結構在內存裏是個什麼樣的存在作者操盛春愛可生技術專家公衆號『一樹一溪』作者專注於研究 MySQL 和 OceanBase 源碼。愛可生開源社區出品原創內容未經授權不得隨意使用轉載請聯繫小編並註明來源。

2024-05-31 12:13:56

一文讲透 OceanBase 单机版：架构介绍、部署流程、性能测试、MySQL对比、资源配置等等

引言 OceanBase 單機集中式集羣（即單機版，後文不再稱“單機集中式集羣”）是OceanBase 推出的極簡數據庫架構，區別於分佈式集羣架構，單機版無多副本和擴縮容能力，適用於開發測試環境及數據安全性要求不高的業務系統。 OceanB

2024-05-31 00:04:39

centos7按照MYSQL8（安装包）

查詢Linux的clibc版本 rpm -qa | grep glibc 現在mysql官網找到對應glibc版本的下載url 然後在linux內下載 wget https://dev.mysql.com/get/Downloads

2024-05-29 22:15:17

MySQL 重启之后无法写入数据了？

數據庫交接後因 persist_only 級別的參數設置引發的故障分析。作者：不喫芫荽，愛可生華東交付服務部 DBA 成員，主要負責 MySQL 故障處理及相關技術支持。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編

2024-05-29 00:01:11

Dolphinscheduler不重启加载Oracle驱动

轉載自劉茫茫看山問題背景某天我們的租戶反饋數據庫連接缺少必要的驅動，我們通過日誌查看確實是缺少部分數據庫的驅動，因爲DolphinScheduler默認只帶了Oracle和MySQL的驅動，並且需要將pom文件中的test模式去掉纔可以

2024-05-28 21:22:10

24小時熱門文章

最新文章

最新評論文章