2019,數據庫行業迎50年第二次鉅變

2019,數據庫行業迎50年第二次鉅變
數據庫與中間件和操作系統並列爲全球三大基礎軟件技術,也是企業IT系統必不可少的核心技術,銀行、電信、製造、互聯網等所有行業都依賴於數據庫技術。由於其技術的高難度,數據庫長期以來被少數公司控制了絕大部分市場份額。據不同的統計口徑,全球數據庫市場在300億美金到600億美金之間,商用數據庫的領導廠商主要是Oracle、微軟、IBM和SAP。

自1968年IBM推出了第一代數據庫DB1以及1970年IBM工程師Edgar Codd寫下了最早的關係型數據模型構想的論文,隨後的30年間出現了著名的數據庫公司Oracle(1977年成立)、Informix(1980年成立,後被IBM收購)、Sybase(1984年成立,後被SAP收購)、Sybase與微軟合作的SQL Server(後由微軟接管)等,全球數據庫產業在2000年前後進行了第一次大戰並主要形成IBM、微軟、Oracle三巨頭格局。

2000年以後的互聯網和雲計算技術變革,爲數據庫技術帶來了“釜底抽薪”的底層計算系統變化,導致了以開源、分佈式和雲計算爲主導的新數據庫時代。2012年Google發佈論文首次對外介紹了自研的具有劃時代意義的Spanner全球分佈式數據庫、2014年AWS推出了雲原生關係型數據庫Aurora、2017年阿里雲推出雲原生關係型數據庫POLARDB,2018年10月Gartner全球數據庫魔力象限的領導者和挑戰者象限出現了7強格局:微軟、Oracle、SAP、AWS、Google、IBM和阿里雲。

2019年3月21日的2019阿里雲峯會·北京上,阿里雲發佈了POLARDB的2.0版本,實現了首次兼容Oracle數據庫,可幫助金融、醫療、製造等大型企業在數小時內完成業務遷移。除阿里雲外,其它國內雲廠商也相繼推出了自研的雲數據庫和分佈式數據庫產品。2019新年伊始,數據庫產業50年的第二次“世界大戰”已經硝煙四起。

電商巨頭的技術溢出效應

從Gartner的2018全球數據庫魔力象限來看,AWS與阿里雲是兩大電商巨頭的對外技術輸出平臺,AWS與阿里雲都推出了種類豐富的數據庫產品。而Google雖然是全球互聯網技術和雲技術的“大牛”,但Google內部技術的對外商用化輸出往往晚於市場,Cloud Spanner就是直到2017年才向市場推出。

過去十年,電商巨頭的技術溢出效應十分明顯。AWS目前已經推出的數據庫產品包括Amazon DynamoDB(非關係型文檔和鍵值數據庫)、Amazon ElastiCache (提供Redis和Memcached開源分佈式緩存數據庫) 、Amazon Neptune(圖數據庫)、Amazon Elastic MapReduce(EMR)Hadoop發行版,以及Amazon Relational Database Service(Amazon RDS,支持Amazon Aurora、MariaDB、Microsoft SQL Server、MySQL、Oracle和PostgreSQL等的雲數據庫服務)以及雲原生數據庫Amazon Aurora for MySQL and PostgreSQL等。

而阿里雲已經推出的數據庫產品包括ApsaraDB for RDS(關係型雲數據庫服務,支持MySQL即AliSQL、SQL Server、PostgreSQL、Redis等)、PolarDB(雲原生數據庫,支持MySQL、PostgreSQL、Oracle)、HybridDB for MySQL and PostgreSQL(雲數據倉庫)、Elastic MapReduce for Hadoop、HiTSDB(時序數據庫)、X-DB(分佈式數據庫)、GraphDB(圖數據庫)等,此外阿里雲Apsara Stack還支持企業本地化私有云部署。

無論是AWS還是阿里雲,所提供的數據庫及數據服務種類繁多,覆蓋了絕大多數用戶場景,特別是由於電商交易系統的特殊性,AWS和阿里雲等開發了支持數據強一致的交易型分佈式數據庫,能夠滿足金融類業務的苛刻需求,而成本則遠低於商業數據庫。

2019,數據庫行業迎50年第二次鉅變

爲什麼電商企業如此孜孜不倦的鑽研數據庫呢?以阿里云爲例。阿里最早從淘寶、天貓等電商業務發展起來,當時採用的就是IBM DB2和Oracle商用數據庫,支持了早期淘寶、天貓的快速發展,這是阿里數據庫發展第一個階段。到了2011和2012的時候,雙11開始上規模,業務高速發展對傳統的Oracle企業級數據庫解決方案提出了挑戰,成本太高是首當其衝的挑戰,其次當電商業務邏輯變複雜以後,需要理解Oracle數據庫的技術實現,以便從根本上解決業務極限場景的挑戰,但無論是請Oracle專家到現場的時間還是成本都無法滿足業務要求,阿里巴巴從2012、2013年後就開始大規模使用開源數據庫,這是阿里數據庫發展的第二階段。第三個發展階段就是雲時代,阿里雲的業務快速發展要求自研雲原生數據庫,這就是POLARDB的誕生邏輯;以及在阿里集團業務中,傳統用中間件進行開源數據庫分爲分表的解決方案也不能滿足業務要求,這就是X-DB的的誕生邏輯。

簡單來說,電商企業的技術溢出是被業務倒逼的結果。阿里電商雙十一場景,在世界範圍內來看都絕無僅有,這也給了中國電商企業登頂全球基礎軟件技術領導地位的機會。作爲全球絕無僅有的高併發挑戰,阿里分佈式技術經過雙十一極限流量洪峯的實戰考驗,這也是爲什麼阿里雲能夠首次代表中國廠商衝入Gartner全球數據庫魔力象限。2018年,美國猶他大學計算機系終身正教授、世界級數據庫系統專家李飛飛,正式加入阿里巴巴,任數據庫產品事業部負責人以及達摩院任數據庫首席科學家,他於2018年底入選了2018 ACM傑出科學家。李飛飛門下弟子遍佈全球所有頂尖企業的數據庫部門,但李飛飛自己卻選中了阿里,其主要原因就是阿里的全球獨一無二的業務場景。

雲廠商集開源技術大成

2019,數據庫行業迎50年第二次鉅變
(阿里達摩院數據庫首席科學家李飛飛)

2019年是阿里雲十週年、AWS進入第13個年頭。雲廠商對於開源技術的集大成,正在進入全新的階段。2014年AWS發佈Amazon Aurora的時候,當時稱性能與商用數據庫相當,但成本只有商用數據庫的1/10。而2017年阿里雲推出POLARDB的時候,在100TB的數據容量上提供了10倍於傳統商業數據庫的性價比,如今性能達到AWS Aurora的2倍。

不可否認,阿里雲的數據庫發展離不開Google和AWS等前輩的指引。谷歌最早提出了Spanner,可以實現跨數據中心的數據強一致性,這在當時是跨時代的技術,但谷歌其實是巧妙的利用了原子鐘的硬件解決方案;PostgreSQL的XC/XL開源分佈式數據庫使用的是GTM(Global Transaction Manager)解決方案。阿里雲的X-DB則採用了混合邏輯來解決分佈式事務處理和查詢,已經支持了幾乎阿里集團所有海量數據高併發的場景。

如今,阿里雲正在把多個領先的數據庫技術融合起來,以滿足客戶的更多、更高需求。雲原生數據庫POLARDB採用了存儲計算分離、軟硬件一體化設計,通過高速的RDMA網絡提供共享存儲的架構,可以快速實現彈性縮擴容,單個實例可擴展到1000覈計算能力、同時可以橫向擴展到100TB存儲空間,滿足大規模業務場景的需求,2.0版本則兼容Oracle。據瞭解,POLARDB與X-DB的優勢即將融合成一體,也就是即將推出的POLARDB分佈式版本。

即將推出的POLARDB分佈式版本是在POLARDB共享存儲、一寫多讀的架構上結合X-DB的核心分佈式技術,這樣企業就可以利用X-DB的分庫分表強一致分佈式技術掛起多個POLARDB實例,支持幾乎無限的水平規模拓展,滿足企業級上百個節點高併發業務需求。POLARDB分佈式版本的推出,將用一個通用商業數據庫產品來滿足公共雲上大中小企業的需求以及線下企業級超大規模用戶的需求。這款產品最大的好處之一,在於底層接入的不是單節點數據庫,而是分佈式共享存儲且單機支持100T,這樣一個200T的數據庫只需要兩個POLARDB實例即可,大幅降低了跨分區處理的可能性。

POLARDB分佈式版本這樣一個集大成的通用型全場景覆蓋數據庫產品,當前阿里雲已經儲備了足夠的技術和實踐,現在的主要工作是產品化、標準化,以便能夠快速規模化部署。李飛飛認爲,阿里巴巴在分佈式數據庫的某些領域和某些維度上,可能超過像谷歌這樣公司在分佈式領域的積累,這是因爲任何技術都是業務推動衍生出來的,只要有業務場景就能推動其技術從跟隨發展到後發領先。

除了分佈式和雲原生數據庫技術外,李飛飛所帶領的團隊還專注於數據庫生態工具庫,也就是開發各種輔助工具幫助客戶用好數據庫。阿里雲的一個數據庫生態工具就是針對混合數據庫和混合雲之間的數據遷移工具ADAM,可以大幅減少不同類型數據庫和雲部署之間數據遷移的各種消耗和對業務的衝擊;另一個工具是混合數據庫管理,可以管理A/B數據庫、雲上和雲下數據庫等混部架構,滿足業務對混部數據庫的訪問和統一控制管理需求。

據瞭解,阿里雲數據庫很快將在2019年SIGMOD大會上介紹阿里雲雙十一場景下的分佈式數據庫架構。此前,谷歌Spanner、AWS Aurora等都是首先在SIDMOD會議上發佈。而阿里雲將登陸2019年SIGMOD會議,這也代表了中國技術廠商的成就。

展望未來幾年,全球數據庫市場將迎來50年的第二次鉅變。在2018 Gartner全球數據庫魔力象限的7強格局中,AWS、阿里雲和Google爲開源技術廠商,微軟、Oracle和IBM也大舉支持開源技術。Gartner預計,開源數據庫將在2019年佔據20%的數據庫市場份額,而到2023年75%的數據庫都將登陸雲平臺。一場數據庫的世紀之戰,已經在所難免。(文/寧川)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章