CDH環境集成KUDU的安裝和使用

CDH環境集成KUDU安裝與使用說明

一、安裝說明

1.1、安裝步驟:

1、重新配置CDH集羣,將對應版本的KUDU放到本地repo目錄後按照安裝CDH環境步驟逐步進行安裝;


1.2、所遇問題:

1、無法讀取到kudu安裝parcel;

         a:檢查kudu的相關內容是否已經放入本地repo目錄;

         b:檢查對應的版本是否一致;

         c:重啓CDH management;

1.3、參考文檔:

https://blog.csdn.net/mergerly/article/details/75127392#comments

https://www.cnblogs.com/littlesuccess/p/5052511.html

https://blog.csdn.net/qq_26398033/article/details/55099591

https://www.jianshu.com/p/cf4c4974127a?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

https://www.cnblogs.com/Leo_wl/p/7374133.html

https://www.cloudera.com/documentation/kudu/latest.html


 

二、使用說明

2.1、kudu簡介:

https://www.2cto.com/kf/201707/653559.html

http://dayutianfei.iteye.com/blog/2246791

1. 什麼是Kudu

This new open source complement to HDFS andApache HBase is designed to fill gaps in Hadoop’s storage layer that have givenrise to stitched-together, hybrid architectures.

可以看出這個新組件有兩個特點:1)開源(免費,ASL 2.0);2)這是一個融合HDFS和HBase的功能的新組件,具備介於兩者之間的新存儲組件

2. Kudu的使用場景

Strong performance for both scan and randomaccess to help customers simplify complex hybrid architectures(適用於那些既有隨機訪問,也有批量數據掃描的複合場景)

High CPU efficiency in order to maximizethe return on investment that our customers are making in modern processors(高計算量的場景)

High IO efficiency in order to leveragemodern persistent storage(使用了高性能的存儲設備,包括使用更多的內存)

The ability to update data in place, toavoid extraneous processing and data movement(支持數據更新,避免數據反覆遷移)

The ability to support active-activereplicated clusters that span multiple data centers in geographically distantlocations(支持跨地域的實時數據備份和查詢)

總結上述內容,可以歸納爲兩個亮點:1)將不同組件結合起來的異構生態圈打通,使得數據、操作在一個圈內進行;2)將CPU、磁盤IO統一考量,便於資源的最優分配,尤其是未來CPU的計算資源成爲瓶頸後;

3. 總結

kudu目前來看,是把analytics 和 online兩個應用場景進行了整合,目的在於將分散的大數據生態圈組件進行融合,估計這也是未來大數據生態圈急需解決的一個問題,也是一個趨勢。

2.2、kudu使用方法:

2.2.1使用方法:

1.可通過Java client、C++ client、Pythonclient操作kudu表,但要構建client並編寫應用程序;

2.可通過kudu-spark包集成kudu與spark,並編寫spark應用程序來操作kudu表;

3.可通過impala的shell對kudu表進行交互式的操作,因爲impala2.8及以上的版本已經集成了對kudu的操作。下面主要講述基於impala的使用方法。

2.2.2基本要求:

安裝2.8及以上版本的impala,並安裝hive,使用其metastore服務來存儲impala的元數據。此處Hadoop、hive、impala的安裝過程省略。

 

注:需通過CDH 管理界面配置impala操作kudu

2.3、基於kudu的基本操作(impala)

創建表:示例一

CREATE TABLE my_first_table

(

id BIGINT,

name STRING,

PRIMARY KEY(id)

)

PARTITION BY HASH PARTITIONS 16

STORED AS KUDU;

 

CREATE TABLE new_table

PRIMARY KEY (ts, name)

PARTITION BY HASH(name) PARTITIONS 8

STORED AS KUDU

AS SELECT ts, name, value FROM old_table;

 

注:創建內部表時,類似partition by ………stored as kudu的分區聲明語句是必須的。

無論是通過client創建的kudu表還是通過impala創建的表,都可以在master節點的UI界面的tables選項中查看,如下圖:

2.4、數據的導入導出

https://blog.csdn.net/lybaiyy/article/details/78973306

https://blog.csdn.net/Mark__cao/article/details/78766195

https://blog.csdn.net/colorant/article/details/50803226

2.5、其他

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章