Hive是數據倉庫
Hive的本質其實就相當於將HDFS中已經存儲的文件在Mysql中做了一個雙射關係,以方便使用HQL去管理查詢。
用於數據分析、清洗
Hive適用於離線的數據分析和清洗,延遲較高
基於HDFS、MapReduce
Hive存儲的數據依舊在DataNode上,編寫的HQL語句終將是轉換爲MapReduce代碼執行。(不要鑽不需要執行MapReduce代碼的情況的牛角尖)
HBase是數據庫
HBase是一種面向列存儲的非關係型數據庫,用於存儲結構化和非結構化的數據。
適用於單表非關係型數據的存儲,不適合做關聯查詢,類似JOIN等操作。
基於HDFS
數據持久化存儲的體現形式是Hfile,存放於DataNode中,被ResionServer以region的形式進行管理。
延遲較低,接入在線業務使用
面對大量的企業數據,HBase可以直線單表大量數據的存儲,同時提供了高效的數據訪問速度。
總結:Hive與HBase
Hive和Hbase是兩種基於Hadoop的不同技術,Hive是一種類SQL的引擎,並且運行MapReduce任務,Hbase是一種在Hadoop之上的NoSQL 的Key/vale數據庫。這兩種工具是可以同時使用的。就像用Google來搜索,用FaceBook進行社交一樣,Hive可以用來進行統計查詢,HBase可以用來進行實時查詢,數據也可以從Hive寫到HBase,或者從HBase寫回Hive。