HBase數據導入----improttsv&Bulk Load

原創

2020-02-21 07:50

HBase本身提供了很多種數據導入的方式，通常有兩種常用方式：

1、使用HBase提供的TableOutputFormat，原理是通過一個Mapreduce作業將數據導入HBase

2、另一種方式就是使用HBase原生Client API

這兩種方式由於需要頻繁的與數據所存儲的RegionServer通信，一次性入庫大量數據時，特別佔用資源，所以都不是最有效的。瞭解過HBase底層原理的應該都知道，HBase在HDFS中是以HFile文件結構存儲的，一個比較高效便捷的方法就是使用 “Bulk Loading”方法直接生成HFile，即HBase提供的HFileOutputFormat類

BULK LOADING：

HBase 支持BULK LOAD的入庫方式，它是利用HBase的數據信息按照特定格式存儲在HDFS內這一原理，直接在HDFS中生成持久化的HFile數據格式文件，然後上傳至合適位置，即完成巨量數據入庫的辦法。配合mapreduce完成，高效便捷，而且不佔用region資源，增添負載，在大數據量寫入時可以極大的提高寫入效率，並降低對HBase節點的寫入壓力。

將hdfs://BPF:9000/user/bpf/hbase/下的數據以bulk load的方式先生成Hfile到hdfs://BPF:9000/user/bpf/hbase/output

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`:${HBASE_HOME}/conf $HADOOP_HOME/bin/yarn jar ${HBASE_HOME}/lib/hbase-server-1.0.0-cdh5.5.0.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:age,info:sex,info:address,info:phone -Dimporttsv.bulk.output=hdfs://BPF:9000/user/bpf/hbase/output student hdfs://BPF:9000/user/bpf/hbase/

完成將HFile裝載到數據庫

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp` $HADOOP_HOME/bin/hadoop jar ${HBASE_HOME}/lib/hbase-server-1.1.12.jar completebulkload hdfs://master1:8020/user/master1/output student

發佈了65 篇原創文章 · 獲贊 14 · 訪問量 4萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

學習必備——HBase和Zookeeper安裝

操作系統:centos7.4 chd的HBase發行版:hbase-1.2.0-cdh5.15.1 chd的Zookeeper發行版:zookeeper-3.4.5-cdh5.15.1.tar.gz 由於 HBase 是使用

爱做梦的锤子

2020-07-07 23:22:40

HBase概述（概念、數據模型、特點和優勢）

目錄HBase是什麼？HBase與RDBMS對比數據模型NameSpaceTableRow KeyColumns FamilyTimeStampCellHBase的特點 HBase是什麼？ HBase是一個高可靠性、高性能、面向

2020-07-07 14:12:54

HBase 增量備份

Author：Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: [email protected] 轉載請註明出處，謝謝。文中可能涉及到的API：

胡同里的民工

2020-07-07 09:10:55

HBase 超詳細優化

高可用在HBase中Hmaster負責監控RegionServer的生命週期，均衡RegionServer的負載，如果Hmaster掛掉了，那麼整個HBase集羣將陷入不健康的狀態，並且此時的工作狀態並不會維持太久。所以HBas

大数据小同学

2020-07-07 01:19:07

HBase擴展布隆過濾器

HBase在商業項目中的能力每天：消息量：發送和接收的消息數超過60億將近1000億條數據的讀寫高峯期每秒150萬左右操作整體讀取數據佔有約55%，寫入佔有45% 超過2PB的數據，涉及冗餘共6PB數據數據每月大概增

大数据小同学

2020-07-07 00:39:19

HBase詳細簡介

什麼是HBase HBase的原型是Google的BigTable論文，受到了該論文思想的啓發，目前作爲Hadoop的子項目來開發維護，用於支持結構化的數據存儲。官方網站：http://hbase.apache.org – 20

大数据小同学

2020-07-07 00:39:19

HBase詳細原理

讀流程 Client先訪問zookeeper，從meta表讀取region的位置，然後讀取meta表中的數據。meta中又存儲了用戶表的region信息；根據namespace、表名和rowkey在meta表中找到對應的re

大数据小同学

2020-07-07 00:39:19

HBase詳細安裝

Zookeeper正常部署首先保證Zookeeper集羣的正常部署，並啓動之： [liujh@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start [liujh@hadoop103

大数据小同学

2020-07-07 00:39:19

HBase 詳細API操作

環境準備新建項目後在pom.xml中添加依賴： <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifac

大数据小同学

2020-07-07 00:39:19

HBase 與Hive的集成詳解

HBase與Hive的對比 Hive 數據倉庫 Hive的本質其實就相當於將HDFS中已經存儲的文件在Mysql中做了一個雙射關係，以方便使用HQL去管理查詢。用於數據分析、清洗 Hive適用於離線的數據分析和清洗，延遲較高。

大数据小同学

2020-07-07 00:39:19

HBase數據結構詳解

RowKey 與nosql數據庫們一樣,RowKey是用來檢索記錄的主鍵。訪問HBASE table中的行，只有三種方式：通過單個RowKey訪問(get) 通過RowKey的range（正則）(like) 全表掃描(scan

大数据小同学

2020-07-07 00:39:19

HBase MapReduce 詳解

通過HBase的相關JavaAPI，我們可以實現伴隨HBase操作的MapReduce過程，比如使用MapReduce將數據從本地文件系統導入到HBase的表中，比如我們從HBase中讀取一些原始數據後使用MapReduce做數據

大数据小同学

2020-07-07 00:39:19

HBase Shell詳細操作

基本操作進入HBase客戶端命令行 [liujh@hadoop102 hbase]$ bin/hbase shell 查看幫助命令 hbase(main):001:0> help 查看當前數據庫中有哪些表 hba

大数据小同学

2020-07-07 00:39:19

Spark讀寫HBase數據

1.使用Spark創建Hbase表，以及定義表屬性 object HBaseCreateTable { def main(args: Array[String]) { val TABLE_NAME = "test_yu

2020-07-07 00:11:09

數據倉庫 - 事實表開發實踐（IoT場景）

一、事實表分類 1. 以粒度劃分（1）事務事實表（Transaction Grain Fact Table）一條記錄代表了業務系統中的一個事件。事務出現後，就會在事實中出現一條記錄。以訂單域舉例：下單是一個事實；付款是一個事實；退款

2020-07-06 06:02:15

24小時熱門文章

最新文章

最新評論文章