Apache Hive™數據倉庫軟件有助於讀取,編寫和管理駐留在分佈式存儲中的大型數據集並使用SQL語法進行查詢
Hive 特性
Hive構建於Apache Hadoop™之上,提供以下功能:
- 通過SQL輕鬆訪問數據的工具,從而實現數據倉庫任務,如提取/轉換/加載(ETL),報告和數據分析。
- 一種在各種數據格式上強加結構的機制
- 訪問直接存儲在Apache HDFS™或其他數據存儲系統(如Apache HBase™)中的文件
- 通過Apache Tez™,Apache Spark™或MapReduce執行查詢
- 使用HPL-SQL的過程語言
- 通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。
Hive提供標準的SQL功能,包括許多後來的SQL:2003和SQL:2011分析功能。
Hive的SQL也可以通過用戶定義的函數(UDF),用戶定義的聚合(UDAF)和用戶定義的表來擴展用戶代碼
函數(UDTF)。
沒有唯一的“Hive格式”存儲數據。 Hive附帶內置連接器,用於逗號和製表符分隔值(CSV/ TSV)文本文件,Apache Parquet™,Apache ORC™和其他格式。
用戶可以使用其他格式的連接器擴展Hive。有關詳細信息,請參閱開發人員指南中的File Formats和Hive SerDe。
Hive不適用於聯機事務處理(OLTP)工作負載。它最適用於傳統的數據倉庫任務。
Hive旨在最大限度地提高可伸縮性(通過向Hadoop集羣動態添加更多計算機來擴展),性能,可擴展性,容錯,與輸入格式鬆散耦合。
Hive的組件包括HCatalog和WebHCat。
HCatalog是Hive的一個組件。它是Hadoop的表和存儲管理層,使用戶可以使用不同的數據
- 處理工具 - 包括Pig和MapReduce - 可以更輕鬆地在網格上讀寫數據。
- WebHCat提供的服務可用於運行Hadoop MapReduce(或YARN),Pig,Hive作業或執行Hive元數據使用HTTP(REST樣式)接口的操作。
Hive 使用
Hive SQL語言手冊:命令,CLI,數據類型,
DDL(創建/刪除/更改/截斷/顯示/描述),統計(分析),索引,存檔,
DML(加載/插入/更新/刪除/合併,導入/導出,解釋計劃),
查詢(選擇),運算符和UDF,鎖,授權
文件格式和壓縮:RCFile,Avro,ORC,Parquet; 壓縮,LZO
程序語言:Hive HPL / SQL
Hive配置屬性
HIve 客戶端
- Hive客戶端(JDBC,ODBC,Thrift)
- HiveServer2:HiveServer2客戶端和直線,Hive指標
Hive Web界面
Hive SerDes:Avro SerDe,Parquet SerDe,CSV SerDe,JSON SerDe
Hive Accumulo集成
Hive HBase集成
Druid整合
Hive Transactions,Streaming Data Ingest和Streaming Mutation API
Hive 計數器
Hive 管理
安裝Hive
配置Hive
設置Metastore
Hive Schema Tool
設置Hive Web界面
設置Hive服務器(JDBC,ODBC,Thrift,HiveServer2)
Hive複製
Hive on Amazon Web Services
Amazon Elastic MapReduce上的Hive
Hive on Spark