「大數據系列」:Apache Hive 分佈式數據倉庫項目介紹

Apache Hive™數據倉庫軟件有助於讀取,編寫和管理駐留在分佈式存儲中的大型數據集並使用SQL語法進行查詢

Hive 特性

Hive構建於Apache Hadoop™之上,提供以下功能:

  • 通過SQL輕鬆訪問數據的工具,從而實現數據倉庫任務,如提取/轉換/加載(ETL),報告和數據分析。
  • 一種在各種數據格式上強加結構的機制
  • 訪問直接存儲在Apache HDFS™或其他數據存儲系統(如Apache HBase™)中的文件
  • 通過Apache Tez™,Apache Spark™或MapReduce執行查詢
  • 使用HPL-SQL的過程語言
  • 通過Hive LLAP,Apache YARN和Apache Slider進行亞秒級查詢檢索。

Hive提供標準的SQL功能,包括許多後來的SQL:2003和SQL:2011分析功能。

Hive的SQL也可以通過用戶定義的函數(UDF),用戶定義的聚合(UDAF)和用戶定義的表來擴展用戶代碼

函數(UDTF)。

沒有唯一的“Hive格式”存儲數據。 Hive附帶內置連接器,用於逗號和製表符分隔值(CSV/ TSV)文本文件,Apache Parquet™,Apache ORC™和其他格式。

用戶可以使用其他格式的連接器擴展Hive。有關詳細信息,請參閱開發人員指南中的File Formats和Hive SerDe。

Hive不適用於聯機事務處理(OLTP)工作負載。它最適用於傳統的數據倉庫任務。

Hive旨在最大限度地提高可伸縮性(通過向Hadoop集羣動態添加更多計算機來擴展),性能,可擴展性,容錯,與輸入格式鬆散耦合。

Hive的組件包括HCatalog和WebHCat。

HCatalog是Hive的一個組件。它是Hadoop的表和存儲管理層,使用戶可以使用不同的數據

  • 處理工具 - 包括Pig和MapReduce - 可以更輕鬆地在網格上讀寫數據。
  • WebHCat提供的服務可用於運行Hadoop MapReduce(或YARN),Pig,Hive作業或執行Hive元數據使用HTTP(REST樣式)接口的操作。

Hive 使用

Hive SQL語言手冊:命令,CLI,數據類型,

DDL(創建/刪除/更改/截斷/顯示/描述),統計(分析),索引,存檔,

DML(加載/插入/更新/刪除/合併,導入/導出,解釋計劃),

查詢(選擇),運算符和UDF,鎖,授權

文件格式和壓縮:RCFile,Avro,ORC,Parquet; 壓縮,LZO

程序語言:Hive HPL / SQL

Hive配置屬性

HIve 客戶端

  • Hive客戶端(JDBC,ODBC,Thrift)
  • HiveServer2:HiveServer2客戶端和直線,Hive指標

Hive Web界面

Hive SerDes:Avro SerDe,Parquet SerDe,CSV SerDe,JSON SerDe

Hive Accumulo集成

Hive HBase集成

Druid整合

Hive Transactions,Streaming Data Ingest和Streaming Mutation API

Hive 計數器

Hive 管理

安裝Hive

配置Hive

設置Metastore

Hive Schema Tool

設置Hive Web界面

設置Hive服務器(JDBC,ODBC,Thrift,HiveServer2)

Hive複製

Hive on Amazon Web Services

Amazon Elastic MapReduce上的Hive

Hive on Spark

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章