HBaseCon Asia 2019 Track 2 概要回顧

HBaseCon 沒來參加怎麼辦？

三個Track沒法同時聽，分身乏術怎麼辦？

沒關係~！“小米雲技術”將用三期時間帶你回顧

全部精華~！

Track 2：Ecology and Solution

在這個 Track,大家主要基於 HBase 根據實際需求構建系統。從橫向來看，HBase 除了本身可用於 OLTP 之外，還能與 Spark、Solor 以及 Kafka 等系統集成起來提供 OLAP 的方案，阿里巴巴的雲數據庫團隊提供了這樣的例子，來自寶島臺灣的成功大學使用統一的協議用於不同存儲系統之間的傳輸也是一個有意思的實踐。從縱向來看，基於 HBase 構建時序、空間以及圖數據庫都是可行的，小米、阿里以及 Nebula 等公司介紹了這些方面的實踐，這也顯示了HBase 作爲存儲系統的通用性以及高性能。另外，大家對 HBase 查詢優化的需求也是多方面的，既有阿里巴巴的基於 Phoenix 的查詢優化，也有光大銀基於協處理器實現了一個輕量級的二級索引系統。那麼接下來小編將依次介紹Track2中的7個部分：

1、Big Data NoSQL System：Apsara DB Hbase and Spark

PPT下載鏈接：http://t.cn/AilB4m6R

來自阿里巴巴的 Wei Li 介紹了基於阿里巴巴雲 HBase 構建的融合了計算、存儲和檢索以及在線和離線的的大數據中臺解決方案，同時結合雲上的彈性伸縮能力，節省成本。這是ApsaraDB HBase X-Pack 的架構圖。

針對掃描大表，造成在線的 HBase 服務不穩定的問題，他們做了一個工作是把在線存儲和離線分析使用的數據分離開來，通過一鍵歸檔把離線的數據轉成列存的格式，帶來性能十倍以上的提升，同時也不會影響 HBase 在線服務的穩定性，列存的方式是把源數據通過WAL同步到Spark 集羣，存儲成列的方式。數據歸檔完成之後，處理完的數據還需要寫回到 HBase,這些數據的具體細節沒有說明，可能跟業務有關，猜測是一些經過處理之後的聚合類數據等。他們沒有通過傳統的使用 HBase API 的方式，而是直接加載 HFile.最後一點是成本，使用雲端數據庫能帶來兩個方面的成本節省。一個是計算資源，一個是存儲。計算資源是因爲不同的業務有不同的波峯和波谷；存儲是因爲可以利用雲上的廉價存儲。最後他根據具體的幾個 case 詳細講述了這套方案的案例。

2、OpenTSDB at Xiaomi

PPT下載鏈接：http://t.cn/AilBbhjp

來自小米的 Junhong Xu 首先介紹了時序數據和 OPenTSDB,然後詳細介紹了 OpenTSDB 內部的實現以及底層的存儲模型，最後是他們在實踐中一些比較重要的配置項以及注意的問題。第二部分詳細介紹了 OpenTSDB 遷移到 Kubernetes 的實踐，包括需求、整個的流程和結構，每個組件的作用和配置，他們還在此基礎上把它服務化，提供一個管理系統供用戶申請、使用和管理。

相比之前的物理機搭建流程，新流程的效率從幾個小時縮減到幾分鐘。最後是一些內部使用OpenTSDB 的案例。

3、Phoenix Improvements and Practices on Cloud HBase at Alibaba

PPT下載鏈接：http://t.cn/AilBbxCh

來自阿里巴巴的 Yun Zhang 介紹在阿里，他們是把 Phoenix 當做數據庫來做的，既提供了直接訪問下層的 HBase 能力，也提供了基於Solr構建二級索引快速訪問HBase和搜索的能力，類似於傳統數據庫或者一些 New SQL 操作型分析和即時查詢，響應時間是毫秒到秒級。

Phoenix 在數據庫主要面向 TB、PB 級的數據體量，查詢延時在毫秒和秒級的即時響應場景，另外過濾後的數據量不能太大，查詢模式不能太多，便於 Phoenix 建立二級索引。另外，由於穩定性、維護性的問題，他們把 Phoenix 的重客戶端模式演變成了輕客戶端模式。最後他結合實際案例給出了一些最佳實踐。

4、Pharos as a Pluggable Secondary Index Component

PPT下載鏈接:http://t.cn/Ailriayg

來自光大銀行的 Lei Wang,主要內容是他們自己設計了一個 HBase 的二級索引系統，這個系統的主要作用是提高查詢的效率。他們的設計目標是希望降低侵入性同時保證架構的簡潔。由於需要排序等全局性的功能，所以客戶端除了提供一個自定義的Condition查詢條件外還需要提供額外的全局協調者的功能。

他們這個設計有趣的地方是通過 rowkey 的設計和影子 Column Family 使索引文件與數據文件處於同一個 region 內，爲了防止 Region Split 造成索引與數據文件不一致的問題，他們使用Index Builder 來基於數據重新生成索引。接下來他分別介紹了排序、分頁和緩存的實現。最後展望了一些未來的規劃，基於谷歌的 Percolator 提供事務的一致性、Bitmap 索引以及 CBO優化、與 Presto 集成等。

5、Bridging the Gap between Big Data System Software Stack and Applications:The Case of Distributed Storage Service for Semiconductor Wafer Fabrication Foundries

PPT下載鏈接：http://t.cn/AilriTRG

來自臺灣成功大學的 Hung-chang Hsiao 帶來的有關 HBase 應用於半導體晶圓製造行業的例子。

他們提供了一種融合多種不同存儲系統的方案，解決了小文件問題，以及設計一個統一的協議使不同的存儲系統之間和兼容以及透明傳輸，此外他們還設計和實現了一個負載均衡系統，並發表在 IEEE 上。

6、Nebula: A graph DB based on HBase

PPT下載鏈接：http://t.cn/Ailrirld

接下來是陳恆帶來的使用 HBase 實現圖數據庫Nebula的介紹。

他首先介紹了圖數據庫是當前很流行的一個數據庫，主要用於社交網絡和知識圖譜等。接下來他介紹了圖數據庫面臨的一些挑戰，包括傳統的數據庫讀寫帶來的讀寫放大、在線海量數據查詢等。然後他介紹了 Nebula 的一些特點，包括存儲於計算分離、類 SQL 查詢（但不支持嵌套查詢）以及與 MySQL 類似的存儲引擎插件等。

7、Spatio-temporal Data Management based on HBase Ganos and its Spark Extension

PPT下載鏈接：http://t.cn/Ailr6Zh2

最後是阿里巴巴的技術專家 Fei Xiao。首先他介紹了時空數據的背景知識。

目前阿里內部主要有兩條線來做時空數據庫，一種是關係型數據庫的模式，比如 PolarDB 或者PG,另一種是非關係型數據庫。前者功能完備，但支持的數據量以及併發度不高，後者可擴展性較好，但功能沒那麼完善。接下來他介紹了基於 HBase 實現的時空數據庫，並詳細介紹了時空索引的原理。時空數據專業性較強，數據量較大，需要一些編碼和解碼以提高效率，同時也需要一些領域相關的知識。

關注“小米雲技術”

三期更新帶你吸收全部 HBaseCon 乾貨

還在等什麼？

HBaseCon Asia 2019 Track 2 概要回顧

HBase Region Read Replicas功能詳解

HBase Region Read Replicas功能詳解

HDFS短路讀詳解

Talos讀寫一致性

Talos 讀寫一致性

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結