實用乾貨!大數據入門的常用技術棧全在這裏了

簡介: 大數據自 2009 年走向人們的視野,亦如所有新技術的發展,經歷了一波炒作後,由風口迴歸理性發展。我們可以看到,隨着 IOT 技術的發展和成熟,以及 5G 業務的全面鋪開,數據規模還將持續增長。新晉技術風口 AI、區塊鏈、RPA 的發展也都離不開大數據技術。大數據技術將作爲一項基礎技術,應用在各個角落。

轉自: Cassandra技術社區
文章鏈接:https://developer.aliyun.com/article/738775?utm_content=g_1000095754

大數據自 2009 年走向人們的視野,亦如所有新技術的發展,經歷了一波炒作後,由風口迴歸理性發展。我們可以看到,隨着 IOT 技術的發展和成熟,以及 5G 業務的全面鋪開,數據規模還將持續增長。新晉技術風口 AI、區塊鏈、RPA 的發展也都離不開大數據技術。大數據技術將作爲一項基礎技術,應用在各個角落。

同時,大數據技術也由解決數據規模問題,發展到如何更高效地消費大數據,數據的實時性、雲上遷移等成爲大數據圈的新挑戰。我們挑選了一些能應對這些新挑戰的有代表性的技術棧,繪製瞭如下大數據圈生態圖,並在下文對主流的技術棧進行了介紹:

image.png

image.png
OLAP 分析引擎:Apache Kylin™
Apache Kylin™ 是一個開源的分佈式分析引擎,提供 Hadoop/Spark 之上的 SQL 查詢接口及多維分析(OLAP)能力以支持超大規模數據,與多種數據可視化工具(如 Tableau,Power BI 等)的整合能力。Apache Kylin™ 已被eBay、騰訊、美團點評、滴滴等全球上千家企業採用。
Apache Kylin™ 僅需三步,即可實現超大數據集上的亞秒級查詢:
1.定義數據集上的一個星形或雪花形模型
2.在定義的數據表上構建 Cube
3.使用標準 SQL 通過 ODBC、JDBC 或 RESTFUL API 進行查詢

image.png
新一代大數據計算引擎:Apache Flink
Apache Flink 能夠以高吞吐低延時的優異實時計算能力幫助企業和開發者實現數據算力升級,支持海量數據的亞秒級快速響應。隨着 Flink 1.9 版本發佈實現的架構升級、Table & SQL 的重構以及批、流數據處理的改進,Flink 的實時計算性能更加強大,易用性也有了極大提升。

image.png
下一代雲原生分佈式流數據平臺:Apache Pulsar
Apache Pulsar 源於 Yahoo,2016 年開源,2018 年正式成爲 Apache 頂級項目,集消息、存儲和函數式輕量化計算的流數據平臺。
技術上採用業界領先的計算和存儲分離架構,使用 Apache BookKeeper 作爲其分片存儲,配合層級存儲,具備“高吞吐、低延時、分佈式強一致、瞬時彈性擴容、Balance-Free、故障自恢復的高可用” 等核心特性。

image.png
開源的非關係型分佈式數據庫:Apache HBase
Apache HBase 是一個高可靠、高性能、面向列、可伸縮的分佈式數據庫,是谷歌 BigTable 的開源實現,主要用來存儲非結構化和半結構化的鬆散數據。HBase 的目標是處理非常龐大的表,可以通過水平擴展的方式,利用廉價計算機集羣處理由超過 10 億行數據和數百萬列元素組成的數據表。

image.png
開源分佈式 NoSQL 數據庫系統:Apache Cassandra
Apache Cassandra 最初由 Facebook 開發,於 2008 年開源。它集 Google BigTable 的數據模型與Amazon Dynamo的完全分佈式架構於一身,表現出良好的可擴展性和性能。在數據庫排行榜“DB-Engines Ranking”中位於寬列存儲模型數據庫第一名, 同時也被 Apple, eBay, Netflix, 360,餓了麼等知名國內外公司廣泛使用,是當下一種流行的分佈式結構化數據存儲方案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章