Sqoop簡介
Apache Sqoop™是一種旨在有效地在Apache Hadoop和諸如關係數據庫等結構化數據存儲之間傳輸大量數據的工具。
Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。
Sqoop原理
將導入或導出命令翻譯成Mapreduce程序來實現。
在翻譯出的Mapreduce中主要是對InputFormat和OutputFormat進行定製。
注意:sqoop的底層mr是沒有reducetask的,因爲它不需要合併