學術界關於HBase在物聯網/車聯網/互聯網/金融/高能物理等八大場景的理論研究

引言

文末有交流羣可以添加交流

**HBase在互聯網領域有廣泛的應用,比如:互聯網的消息系統的存儲、訂單的存儲、搜索原材料的存儲、用戶畫像數據的存儲等,除此之外,在其它領域也有非常多的應用。這得益於HBase海量的存儲量及超高併發寫入讀取量。HBase在09年就開始在工業界大範圍使用,在學術界,也有非常多的高校、機構在研究HBase應用於不同的行業,本文主要梳理下這些資料(主要是中文資料,有一些是碩士論文期刊,便於廣大讀者閱讀,特別選擇了中文資料),很多都在工業界使用了。 由於涉及到版權,筆者提供鏈接,不提供資源下載,請大家見諒,可以自行搜索或者下載。感謝各位學者辛苦的研究,也論證了hbase技術在大規模存儲的優勢,在不同領域的應用場景。

HBase最主要的特性

  • HBase基於HDFS,可以提供廉價的解決方案。在阿里雲ApsaraDB for HBase會發布基於D1、I2的物理機方案,存儲成本爲0.1元每GB每月左右,且可以在線動態添加節點,增加容量。 無需一次性投入全年的量。
  • HBase容量可以無限擴容:在100T的數據量上毫無壓力,在1P的數據量上也類似。
  • HBase提供超高的併發量:主要得益於系統的除了Master之外的所有節點都直接跟客戶端通信,且系統自動分區。有的系統會有一個路由中心,此會極大的限制併發量及流量
  • 跟Spark、HadoopMR等分析系統結合

關於 阿里雲HBase產品的優勢見:阿里雲HBase優勢

行業

物聯網行業 & 車聯網

  • 基於HBase的海量GIS數據分佈式處理實踐:設計了一種基於分佈式數據庫HBase的GIS數據管理系統。系統優化了柵格數據的生成和存儲過程,將海量柵格數據直接寫入HBase存儲、索引。同時,針對矢量空間數據的存儲、索引與檢索,提出了一種新的rowkey設計,既考慮經緯度,又考慮空間數據類型和屬性,使得在按空間位置檢索矢量地理信息時,能通過HBase的rowkey迅速定位需要返回的數據。在HBase的集羣環境上用真實GIS數據對上述方法進行了驗證,結果表明,提出的系統具有較高的海量數據存儲和檢索性能,實現了海量地理信息數據的高效存儲和實時高速檢索。
  • 基於 HBase的分佈式空間數據庫技術:針對在大型地理信息系統(GIS)中,需要對海量矢量數據和柵格數據進行存儲並對高併發的用戶查詢請求提供高效響應,傳統的設計方案難以滿足需求的問題,提出一種使用基於內存存儲的分佈式數據庫HBase存儲空間數據,並設計基於GeoHash的分佈式空間索引,實現了矢量空間數據與柵格空間數據的分佈式存儲與快速查詢.實驗表明,該方法提升了海量空間數據的查詢速度.
  • 基於HBase的大規模無線傳感網絡數據存儲系統: 無線傳感網絡(WSN)存在分佈的跨區域性,隨着無線傳感網絡的擴張,傳感器數目增多,將產生大規模的傳感數據.針對存儲大規模無線傳感網絡數據的問題,提出了一個兩層分佈式存儲架構,使用分佈式數據庫HBase存儲跨區域的無線傳感網絡數據和全局數據存儲管理目錄,實現一個近實時的存儲系統.實驗結果證明,該系統有良好的擴展性、存儲和查詢效率.
  • 基於HBase的全天候全域出租車聚集實時監測方法:本發明爲基於HBase的全天候全域出租車聚集實時監測方法,公開了一種車輛聚集監測方法。本發明首先將監測區域劃分成網格,使用歷史GPS數據計算出每個網格出租車數的最大值。然後,實時掃描GPS數據,按時刻截取一段時間的數據進行分析,循環掃描每一個網格,如果某個網格連續n個時刻都大於歷史最大值,則觀察這n個時刻的車數是否呈遞增趨勢,如果是則繼續計算本時刻是否有一定數量的車和上一時刻相同,成立則說明該網格發生車輛聚集,否則掃描下一個網格。本發明利用出租車GPS數據實時監測每個區域,通過海量的歷史出租車GPS和實時數據、HBase數據庫、Spark計算框架、數據挖掘方法和最小二乘法構建出了一套快速、準確而有效的實時聚集監測方法。
  • 基於HBase的車聯網傳感數據管理系統設計 :關係型數據庫由於面向行存儲以及無法擴展等原因,已很難滿足大規模車聯網傳感數據的存儲與查詢要求.針對該問題,設計了一個基於非關係型數據庫HBase存儲的車聯網傳感數據管理系統.該系統採用Hadoop與HBase搭建分佈式實驗平臺,採用C#語言開發Web網頁端.通過與傳統關係型數據庫SQL Server的存儲與查詢效率進行對比分析,表明HBase在處理大規模車聯網傳感數據方面具有明顯優勢.

交通

  • 面向海量交通數據的HBase時空索引:針對HBase無法直接建立時空索引所帶來的交通數據查詢性能問題,基於HBase行鍵設計了面向海量交通數據的HBase時空索引.首先利用Geohash降維方法將二維空間位置數據轉化爲一維編碼,再與時間維度進行組合:然後根據組合順序的不同,提出了四種結構模型,分別討論了模型的具體構成以及交通數據查詢中的適應面;最後提出了相應的時空索引管理算法及基於Hbase時空索引的交通數據查詢方法.通過實驗驗證了提出的HBase時空索引結構能有效提升海量交通數據的區域查詢性能,並比較了四種時空索引結構在不同數據規模、不同查詢半徑以及不同時間範圍的查詢性能,量化驗證了不同索引結構在交通數據查詢中的適應場景
  • 基於HBase的交通數據區域查詢方法:隨着智能交通的發展,交通數據呈現出指數性增長.爲了提升時空區域查詢性能,論文提出了一種基於HBase的交通數據區域查詢方法HRQ.該方法利用交通數據的三維時空特性,採用Geohash算法將交通數據的經緯度信息轉爲Geohash編碼,然後與時間組合作爲HBase行鍵,並設計了相應的查詢算法.實驗結果表明,與直接組合經緯度和時間作爲行鍵的方法相比,在基於時間範圍的區域查詢上HRQ方法的性能要高30%以上,在基於區域範圍的區域查詢上HRQ的性能優勢隨着查詢區域的增大而增加.
  • 基於HBase的交通流數據實時存儲系統:交通流數據具有多來源、高速率、體量大等特徵,傳統數據存儲方法和系統暴露出擴展性弱和存儲實時性低等問題.針對上述問題,設計並實現了一套基於HBase交通流數據實時存儲系統.該系統採用分佈式存儲架構,通過前端的預處理操作對數據進行規範化整理,利用多源緩衝區結構對不同類型的流數據進行隊列劃分,並結合一致性哈希算法、多線程技術、行鍵優化設計等策略將數據並行存儲到HBase集羣服務器中.實驗結果表明:該系統與基於Oracle的實時存儲系統相比,其存儲性能提升了3~5倍;與原生的HBase方法相比,其存儲性能提升了2~3倍,並且具有良好的擴展性能.
  • 基於HBase的交通卡口數據存儲和查詢系統研發:該系統採用分佈式架構,前端攝像頭傳感器以Http協議方式將交通卡口數據發送給Flume分佈式採集系統,採集系統對多源異構數據進行分類、聚合規範化整理,然後將不同類型的卡口數據傳入到Kafka分佈式消息隊列中進行數據劃分,數據劃分中重寫了Kafka原有的Partition類,從而更好的實現了卡口數據讀取的實時性。Storm分佈式實時計算系統從消息隊列中獲取卡口數據並且完成存儲過程,最終將卡口數據寫入到HBase集羣服務器中。利用Phoenix-client作爲HBase之上的Sql層,實現對HBase數據庫查詢。在保證系統高可靠、高可用的情況下,實現了卡口系統數據的快速寫入和讀取。

互聯網

  • 針對微博信息分析的HBase存儲結構設計 :隨着互聯網的發展,微博對人們生活的影響日益加深。由於微博用戶的激增,微博數據量已經非常龐大,且每時每刻都在急速增長。面對這種形勢,傳統數據庫對於海量數據的處理效率已經難以滿足需求,於是NoSQL數據庫應運而生。文章採用的HBase是目前比較受歡迎的開源NoSQL之一。作爲依賴於HDFS分佈式存儲架構的新型NoSQL數據庫,HBase不僅能滿足高效的結構化數據存儲,並通過Mapreduce實現高效處理,還能存儲非結構化數據,爲海量數據提供相對靈活的信息存儲管理。
  • 基於 HBase 的互聯網電視運營分析架構和模型設計 
    隨着雲時代的來臨,互聯網電視(OTT TV)業務吸引了越來越多的關注。新疆建設兵團所處地域遼闊,生產和生活的網絡視頻化的管理與服務的需求也日益明顯。兵團的互聯網電視業務在日常運營中會生成並累積大量的用戶行爲數據。由於不同類型的用戶行爲數據來自不同的數據平臺,數據結構各異且數量龐大,從成本和性能方面考慮,傳統的關係型數據庫難以出色地完成用戶行爲分析。爲此,本文介紹一種基於Hbase的互聯網電視用戶行爲分析系統架構和模型設計,實現大規模異構行爲數據的挖掘分析,爲更好的運營兵團地域的互聯網電視業務提供解決辦法。

電力

  • 基於HBase的配用電海量時序數據存取研究:針對配用電海量時間序列數據,目前南方電網普遍採用關係型數據庫進行存儲,在技術上使用分庫、分區、分表、聯合索引等方式進行優化,靈活性、可擴展性、存儲量等方面都存在問題.爲滿足配用電海量時間序列數據的存儲要求,分析了關係型數據庫優缺點,提出採用分佈式數據庫HBase構建電力系統數據中心以提高系統性能,並重點分析了HBase數據存儲機制及實現方法,最後通過仿真實驗進行對比.實驗結果表明,基於HBase的配用電海量時間序列數據存取技術在存儲及查詢操作上具有較大的性能優勢.
  • HBase 在智能電網異構數據同步中的應用:未來的智能電網在運行中將會產生海量的多態、異構數據,對這些數據的可靠獲取、實時分析、同步及處理會給電網信息系統帶來前所未有的壓力。因此,把電網大數據遷移到雲端—數據中心,來實現異構數據的精準、實時同步則顯得尤爲必要。以解決未來智能電網大數據處理問題爲出發點,通過對電網數據中心相關功能需求進行細緻分析,對比傳統的關係型數據庫建模基礎,提出了基於Hbase架構的智能電網數據中心的解決方案。最後通過對比 MySQL 性能進行模擬測試,得出所提出的設計方案能夠很好地適用於未來智能電網數據中心的構建以及異構數據的同步,達到電網大數據的實時共享、監測及準確分析、處理的目的,在未來智能電網信息管理系統中具有廣闊的應用前景。

金融

  • 基於HBase的金融時序數據存儲系統 : 設計並實現了1個基於HBase的金融時序數據的存儲系統。設計了基於金融時序數據的HBase預分區策略,可解決HBase存儲熱點的問題;採用了行鍵優化策略和基於時序數據的表設計策略,可解決數據存儲分散的問題;使用了提供異步處理機制的事件驅動的Netty框架所編寫的中間件接收採集器發送的請求,可解決高併發事務的處理問題。實驗結果表明,與HBase原生方法相比,該系統的性能在處理高併發事務時更好。

醫療

航空

  • 基於HBase的民用航空發動機大數據管理系統: 爲克服傳統關係型數據庫存儲管理海量航空發動機狀態監控數據的不足,本研究提出了基於HBase的民用航空發動機大數據管理系統.首先分析了該系統的功能需求,給出了系統整體架構與模塊設計,並對關鍵技術進行了闡述.最後設計試驗對比HBase與Oracle的搜索效率.試驗結果表明檢索結果集較大時HBase的搜索效率明顯高於Oracle.本研究中提出的航空發動機大數據管理系統爲發動機海量數據的存儲管理提供了一種解決方案.

小文件存儲(圖片視頻等)

  • 一種基於HBase的海量圖片存儲技術針對海量圖片存儲,已有若干個基於Hadoop的方案被設計出來.這些方案在系統層小文件合併、全局名字空間以及通用性方面存在不足.本文基於HBase提出了一種海量圖片存儲技術,成功解決了上述問題.本文將介紹基於HBase海量圖片存儲技術方案,分析其原理及優勢,該方案在城市交通監控中得到應用驗證.
  • 基於 HBase 的小文件高效存儲方法 :基於 Hadoop 平臺的相關係統得到了廣泛應用。Hadoop 分佈式文件系統(Hadoop distributed file system, HDFS)通過分佈式的工作方式,負責處理海量文件數據。對 HDFS 而言,海量數據中的小文件存儲問題制約着系統高效工作的能力。針對海量數據中小文件讀寫效率低的情況,提出一種基於 HBase(Hadoop database)的海量小文件高效存儲方法,利用 HBase 的存儲優勢,將小文件直接存儲於 HBase,從而有效減少元數據節點服務器(Name-Node)的負載,並對上層應用系統提供透明的訪問接口。實驗結果表明,該方法可以實現海量小文件的高效存儲,提高 HDFS 環境下小文件的讀寫效率。

高能物理

  • 高能物理大數據挑戰與海量事例特徵索引技術研究:一次大型實驗即可產生萬億級的事例.傳統高能物理數據處理以ROOT文件爲基本存儲和處理單位,每個ROOT文件可以包含數千至數億個事例.這種基於文件的處理方式雖然降低了高能物理數據管理系統的開發難度,但物理分析僅對極少量的稀有事例感興趣,這導致了數據傳輸量大、IO瓶頸以及數據處理效率低等問題.提出一種面向事例的高能物理數據管理方法,重點研究海量事例特徵高效索引技術.

地理

  • 基於HBase的海量地形數據存儲:隨着遙感技術的發展,遙感數據的類型和量級發生了巨大變化,對於傳統的存儲方法產生了挑戰.針對HBase中海量地形數據管理效率不高的問題,提出一種四叉樹-Hilbert相結合的索引設計方法
  • 基於HBase的矢量空間數據分佈式存儲研究:分析了分佈式數據庫HBase的存儲模型;結合對HBase集羣技術的研究,設計了基於HBase的矢量空間數據存儲模型和一種基於MapReduce的並行構建網格空間索引方法,使得海量空間矢量數據的網格索引構建分配到各子節點進行,大大加快索引構建的處理速度;最後,利用HBase集羣環境對所提出的方法進行驗證,該方法具有較好的可行性和較高的效率.

寫在最後

更多關於Hbase學術的論文參考:HBase應用 ,或者在 http://xueshu.baidu.com/ 搜索 hbase相關的論文,比如 hbase 傳感器
一些HBase其它的資料參考 
HBase全網最佳學習資料彙總:彙總了HBase大部分的資料的連接


HBase技術交流社區 - 阿里官方“HBase生態+Spark社區大羣”點擊加入:https://dwz.cn/Fvqv066s

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章