爲什麼雲原生+分佈式是數據庫的未來?

2020 雲棲大會期間,阿里巴巴正式成立雲原生技術委員會,同時推出了雲原生多模數據庫Lindorm、雲原生分佈式數據庫PolarDB-X、雲原生數據倉庫AnalyticDB(ADB)、雲原生數據湖分析等一系列重磅自研雲原生數據庫產品。此舉也標誌着阿里雲數據庫全面進入了雲原生+分佈式時代。

那麼,什麼是雲原生數據庫?數據庫行業的業界趨勢是什麼?阿里雲在雲原生數據庫方面如何佈局?爲此,CSDN有幸採訪到阿里巴巴集團副總裁、達摩院首席數據庫科學家,同時也是雲原生技術委員會核心成員之一的李飛飛。



一、數據庫與大數據系統在雲原生背景下會怎樣結合?

李飛飛強調,得生態者得天下,數據庫的生態之所以叫「生態」,有一個很關鍵的邏輯和觀察,即「多樣性」。這也是爲什麼傳統的數據庫領域中有 OLTP、OLAP、NoSQL 等多種分類的原因。

舉個例子,亞馬遜雨林是生態,張北防護林就不是生態。數據庫領域絕對不能僅僅只做 TP 數據庫(事務處理/在線交易),接下來的發展會越來越多看到像 HTAP 這種技術,將在線事務處理和在線分析與計算合二爲一,將在線分析和離線計算合二爲一,我們會看到越來越多數據庫和大數據系統的結合。從產品體系上,我們要爲客戶提供端到端的數據能力,包括生產、處理、存儲、計算分析等。這也是爲什麼 Gartner 最新數據庫魔力象限調查中提出了 “There is Only One DBMS Market”, 將 DMSA(Data Management Solution for Analytics)與 OPDBMS(Operational DBMS)合二爲一,推出新的 Cloud DBMS 魔力象限。

在這個趨勢下,我們的核心業務策略就是打造新一代雲原生數據庫產品體系, 以雲原生技術與架構爲基礎,兼容數據庫生態,構建數據的生產、處理、存儲、計算分析的全鏈路閉環體驗。我們從兩個重要維度展開:

(1) 合作伙伴,確認標準、使用體驗是不是開放兼容,和合作夥伴一起打造一個豐富的生態;

(2) 產品體系是不是足夠豐富,幫客戶用一套數據庫的標準,來解決數據生產、處理、存儲、計算分析的痛點。

基於此,在企業級雲原生數據庫賽道上,我們構建了一個平臺+四個柱子的產品體系。推出了核心的雲原生關係型事務數據庫 PolarDB 以及分佈式版 PolarDB-X 的同時(柱子1),在傳統的 OLAP 領域(柱子2),推出了新一代雲原生數據倉庫 AnalyticDB(簡稱 ADB)以及雲原生數據湖分析 Data Lake Analytics(DLA),ADB 也具備存儲計算分離、存儲池化、彈性、高可用、離在線一體化的大數據處理能力,用數據庫的方式支持客戶去處理傳統大數據問題。DLA 利用雲原生 Serverless 的技術方式和架構設計,實現低成本高效的一鍵建湖,自動發現和管理多源異構數據源的元數據,並支持 delta 變化。用雲原生 Serverless 的方式實現低成本數據湖構建和計算與分析。在NoSQL領域,我們推出了多模數據庫Lindorm和Tair,幫助客戶高效的處理和存儲海量結構化、半結構化、非結構化數據(柱子3)。除此之外我們構建了企業級數據庫生態工具產品體系(柱子4),以及一個平臺——雲原生智能化數據庫管控平臺。

二、什麼是雲原生分佈式數據庫?

說起雲原生數據庫,就不得不提雲原生。

2013年,雲原生(Cloud-Native)的概念由Pivotal公司的Matt Stine首次提出,這也是雲原生起源的一種說法;2015年,Matt Stine在《遷移到雲原生架構》一書中定義了雲原生的十二要素,這十二要素,也被業界認爲是辨別雲原生的重要標準。

2018年CNCF(雲原生計算基金會)對雲原生做了一個定義,即雲原生技術有利於各組織在公有云、私有云和混合雲等新型動態環境中,構建和運行可彈性擴展的應用。雲原生的代表技術包括容器、服務網格、微服務、不可變基礎設施和聲明式API。這些技術能夠構建容錯性好、易於管理和便於觀察的松耦合系統。結合可靠的自動化手段,雲原生技術使工程師能夠輕鬆地對系統作出頻繁和可預測的重大變更。

李飛飛表示,雲原生的本質就是發揮雲計算資源池化、平臺規模化等技術紅利帶來的業務價值,利用容器化部署、微服務、存計分離、Serverless、多租戶、智能化調度與運維管控等多種技術手段來充分的發揮雲計算帶來的彈性、高可用、靈活部署、簡化運維、易拓展等這些核心業務價值。

李飛飛接着說道,雲原生數據庫基於Shared Everything + Shared Storage 的存儲計算分離架構實現資源池化高效管理,同時兼具彈性高可用水平拓展的特性。而分佈式,就是用Shared Nothing的架構,實現數據水平分片、水平擴展。兩者結合在一起,就成爲了雲原生分佈式數據庫,其實質是將Shared Nothing 和Shared Everything、Shared Storage 的特性完美結合。

三、企業爲什麼需要雲原生分佈式數據庫?

全球知名諮詢公司Gartner指出,雲將主導數據庫市場的未來,到2022年,75%的數據庫將被部署或遷移至雲平臺,只有25%的數據庫會考慮部署在本地。雲化無疑代表了未來。因此,這個趨勢判斷,爲實際上企業爲何需要雲原生數據庫定了性。

而李飛飛也表示,隨着企業業務全面向數字化、在線化、智能化演進,企業面臨着呈指數級遞增的海量存儲需求和挑戰,業務有更多的熱點和突發流量帶來的挑戰,我們的企業需要降本增效,進行更好的智能的數據決策,傳統的商業數據庫已經難以滿足和響應快速變化持續增長的業務訴求。

雲原生分佈式數據庫帶來的四大特性,很好地解決了企業用戶的核心訴求。從資源池化到彈性擴展,再到智能運維,再到離在線一體化。利用這些核心的特性,數據庫也將全面的進入雲原生加分佈式的時代。

具體來講,雲原生分佈式數據庫的以下幾個優點是其將成爲未來趨勢的主要原因:

易用性

同雲計算非常易於使用一樣,雲原生數據庫也是非常易於使用的,由於是完全基於雲原生架構構建,所以它可以隨時隨地的從多前端訪問,提供雲服務的計算節點。因其集羣部署在雲上,所以單點失敗對服務的影響特別小。而且當需要升級或更換服務的時候,可以對節點進行不中斷服務的逐漸升級。

高擴展性

與傳統數據庫將所有文件和資源都存儲在同一主機中不同,雲原生數據庫會與底層的雲計算基礎設施分離,所以能夠靈活及時的調動資源進行擴容和縮容,以從容應對流量激增可能帶來的壓力,以及流量低谷期因資源過剩造成的浪費。也正是因爲能夠靈活擴縮容,雲原生數據庫也具備很強的可遷移性。

快速迭代

雲原生數據庫中的各項服務之間是相互獨立的,個別服務的更新並不會對其他部分產生不利影響,而不是一旦出了問題就只能全場熄火。此外,雲原生的研發測試和運維工具是高度自動化的,這使得應用的更新會更加快速頻繁。

節約成本

建立一個數據中心是一項獨立而完備的工程,需要大量的硬件投資,還需要能可靠管理和維護數據中心的訓練有素的運維人員。此外,持續的運維會給你的財務帶來相當大的壓力。而使用雲原生數據庫,則可以以較低的前期成本,獲得一個可擴展的數據庫,實現更優化的資源分配。

而在當前,尤其是在後疫情時代,各行各業都在加速企業數字化轉型。在全面上雲、全面數字化的背景下,傳統的數據庫根本無法滿足企業在海量存儲、智能化、突發流量應對等方面的訴求。雲原生數據庫所具備的雲端全面的資源池化、運營平臺化,按需付費、快速彈性、分佈式存儲、智能運維等特性,毫無疑問將會全面超越傳統數據庫,因此,爲什麼需要雲原生數據庫,答案顯而易見。

四、引領行業變革 全面升級雲原生數據庫產品矩陣

正是看到雲原生數據庫的未來趨勢,阿里雲在本次雲棲大會上,重磅發佈業界首款雲原生多模數據庫Lindorm,同時推出了三大核心自研雲原生數據庫產品——雲原生分佈式數據庫PolarDB-X、雲原生數據倉庫AnalyticDB(ADB)、雲原生數據湖分析Data Lake Analytics(DLA)的年度重磅升級,全面領銜雲原生分佈式數據庫領域。

其中,雲原生多模數據庫Lindorm是基於雲原生架構,採用自研低成本彈性存儲介質、零應用程序改造的智能冷熱分離技術和自適應壓縮算法,使海量數據存儲成本降低80%。Lindorm可同時滿足key-value數據、寬表數據、時序數據、文件、圖片等多種類型數據的存儲、實時查詢和檢索需求,解決不同類型數據部署帶來的架構複雜維護困難、數據存儲成本高、業務規模靈活多變等問題,是互聯網、IoT、車聯網、廣告、社交、遊戲等場景的首選。

雲原生分佈式數據庫PolarDB-X結合了雲原生與分佈式的優勢,融合分佈式SQL引擎DRDS與分佈式自研存儲X-DB,專注解決海量數據存儲、超高併發吞吐、大表瓶頸以及複雜計算效率等數據庫瓶頸難題,歷經各屆天貓雙11及阿里雲各行業客戶業務的考驗,助力企業加速完成業務數字化轉型。PolarDB-X將這種分佈式的能力擴展到了計算層,李飛飛表示,“PolarDB的計算是一寫多讀多個計算節點,最多做到16個節點,現在,PolarDB-X相當於在PolarDB之上又加上了一個分佈式拓展層,這樣可以根據企業的併發需求、數據量進行水平拓展。”

在此次雲棲大會上,PolarDB-X迎來了年度重磅升級版本,併發布兩大全新的企業級功能:混合負載HTAP和全局二級索引透明分佈式,使在線交易和在線複雜查詢的性能大大提升,效率提升5到10倍以上。

雲原生數據倉庫AnalyticDB是阿里巴巴自主研發、唯一經過超大規模以及核心業務驗證的PB級實時數據倉庫,自2012年第一次在集團發佈上線以來,至今已累計迭代發佈近百個版本,支撐起集團內的電商、廣告、物流、文娛、旅遊、風控等衆多在線分析業務。在本次雲棲大會上,AnalyticDB發佈了MySQL版本的計算資源分時彈性功能,這個功能可以實現計算資源依據峯谷需求動態擴縮容,從而使得資源成本降低50%-80%;在PostgreSQL版版本中,多Master功能的引入是一個亮點,該功能可提供併發線性擴展能力,可輕鬆應對高併發場景。其自研的Laser引擎,提供較原生Greenplum一倍以上的性能提升,爲滿足分析計算實時化提供了有力保證。

此外,阿里雲還發布了自研雲原生數據湖分析Data Lake Analytics(DLA)的重磅升級版本,全新Serverless Spark功能一分鐘可以並行拉起300個計算節點,提供job級別的彈性能力,開箱即用,收費粒度精確到秒級,一分鐘就可以跑通一個Spark作業。對於客戶而言,從成本上,由於將管控完全多租戶化,用戶不需要承擔這部分額外開銷,只需要實際使用付費;從運維方面,一個企業中一個管理員就可以實現整體管理工作,大大降低運維成本;功能上支持用戶編程、Python、機器學習等原生API的能力,並且支持OpenAPI、SparkSubmit腳本、控制檯提交作業。

五、阿里雲數據庫的蛻變之路

梅花香自苦寒來,雲原生數據庫如今的桃李盛開也不是一朝一夕之功,實際上,早在2011年,阿里巴巴就已經認識到傳統IT技術已經不能很好地滿足互聯網發展的需求,因此,從那個時候起,阿里雲就開始着手進行自研數據庫的建設。

阿里雲Lindorm數據庫就是在那時誕生。在歷經了阿里巴巴經濟體十年磨練,支撐了淘寶、天貓、支付寶、菜鳥網絡、IoT等核心業務之後,Lindorm才具備了現在每秒千萬級吞吐、百PB存儲規模和個位數毫秒響應時延的強大性能。

2017年9月21日,阿里雲發佈了全新一代雲數據庫產品PolarDB,這是首個國產的通用高性能自研數據庫,在高性能通用數據庫這塊高地上,第一次出現了中國廠商。而後,相續發佈雲原生數據倉庫AnalyticDB、雲原生分佈式數據庫PolarDB-X、雲原生多模數據庫Lindorm、雲原生數據湖分析Data Lake Analytics(DLA)、數據庫自治服務DAS等,形成了完整的阿里雲原生數據庫產品矩陣。

李飛飛介紹說,在企業級雲原生數據庫方面,PolarDB以及它的分佈式版 PolarDB-X是阿里雲在OLTP(在線事務處理)領域推出的核心產品雲原生關係型數據庫 。PolarDB充分的利用了雲原生技術架構裏面的資源池化和資源解耦思想,利用分佈式共享存儲以及shared-everything架構實現了存儲池化、計算池化、存儲計算分離,做到了分佈式架構透明化的集中式部署,具有優異的分鐘級別彈性、金融級高可用、性價比和兼容性, 可以很好的支持傳統商業數據庫向雲原生數據庫平滑遷移。PolarDB-X在此基礎上,進一步結合shared-nothing架構來實現水平拓展,利用分佈式事務處理和分佈式查詢優化技術做到透明式的分佈式+雲原生架構。

在OLAP(在線分析)領域,阿里雲推出了新一代雲原生數據倉庫 AnalyticDB(簡稱 ADB)以及雲原生數據湖分析 Data Lake Analytics(DLA),ADB 也具備存儲計算分離、存儲池化、彈性、高可用、離在線一體化的大數據處理能力,在支持複雜分析與計算的同時支持CURD(增刪改查), 用數據庫的方式支持客戶和業務去處理大數據計算與分析。同時ADB也高度兼容現有生態,可以很好的做到傳統數倉一鍵升級到雲原生數倉。ADB也支持HTAP, 可以高效的處理混合負載。

DLA 利用雲原生serverless 的技術方式和架構設計,實現低成本高效的一鍵建湖,自動發現和管理多源異構數據源的元數據,並支持 delta 變化。用雲原生 Serverless 的方式實現低成本數據湖構建、管理、計算與分析。

在 NoSQL 領域,阿里雲在今年雲棲大會上重磅推出了雲原生多模數據庫 Lindorm,幫客戶提供「存得起、看得見」的非結構化、半結構化的數據存儲與處理解決方案。由此客戶可將海量的非結構化和半結構化數據存儲在 Lindorm 中,並以簡易、高效的方式處理和查詢數據,比如時序、日誌、文檔等。另外提供了企業級緩存Tair,支持熱點打散、智能化冷熱數據分離、將一個集羣內存進行集羣化的管理和使用和調度等,由此極大提升應用對緩存、內存數據庫的訪問,提升效率和降低成本。

除此之外,阿里雲也研發了結合機器學習與AI技術的雲原生智能化管控平臺,提供基於雲原生架構(例如基於K8S的管控編排),利用DAS(Database Autonomy Service)來提供數據庫自動駕駛平臺,實現數據庫系統的自治化與智能化。同時,阿里雲也建立了豐富的企業級數據庫生態工具體系,例如數據傳輸同步DTS,數據庫備份DBS,數據庫應用評估與遷移ADAM和數據應用開發與管理DMS。

目前,中國郵政、南方航空、海爾集團、美的集團等大中型企業,點評微生活、莉莉絲遊戲等互聯網公司都已經成爲了阿里云云原生數據庫產品的用戶。

六、雲原生數據庫的未來將走向何方?

李飛飛強調:“數據庫領域的核心發展方向是雲原生+分佈式,以及由此帶來的幾個核心技術佈局:安全可信、自治與智能化、數據庫大數據一體化(HTAP/離在線一體化/計算分析一體化)、數據倉庫與數據湖、多模數據庫以及軟硬件結合。”

據悉,未來阿里雲數據庫將深度結合雲原生與分佈式,通過“Shared Nothing”、“Shared Everything + Shared Storage”、存儲計算分離等技術,幫助用戶最大限度的實現資源池化、彈性變配、超高併發等能力。數據庫自治服務DAS將進一步結合雲原生數據庫的彈性能力,向用戶提供智能化的Serverless數據庫服務。

“作爲全球領先的雲計算公司,阿里雲全面打造雲原生數據庫技術與產品體系, 幫助企業客戶和開發者接觸和使用到最適合他們業務發展和部署的雲原生數據庫產品。在確保業務與數據安全可信、穩定可靠的前提下,阿里雲利用All In雲原生戰略帶來的豐富的雲原生產品體系和生態,將助力我們的客戶和開發者能夠更加敏捷、更加智能化、更加低成本的實現雲上數字化轉型與升級,同時享受到雲原生技術紅利帶來的TCO成本下降。”李飛飛表示。

文章來源:CSDN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章