如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

摘要: 中國最強數據庫學術會議來襲!在NDBC大會期間,達摩院數據庫與存儲實驗室聯合中國計算機學會(CCF)數據庫專業委員會,舉辦了首屆產業數據庫研發論壇。產學研的思想碰撞,見證“阿里力量”

10月12日-14日,一年一度的中國數據庫領域最高學術會議——NDBC 2018如期在大連舉行。在這場代表了國內數據庫領域最強實力的學術盛宴上,阿里巴巴不但集結了強大的參會陣容,由阿里巴巴集團副總裁、達摩院科學家、數據庫與存儲技術負責人李飛飛博士(花名:飛刀)親自帶隊。此外,在NDBC大會期間,達摩院數據庫與存儲實驗室還聯合中國計算機學會(CCF)數據庫專業委員會,舉辦了首屆產業數據庫研發論壇。論壇力邀知名企業技術負責人及學界專家,共同探討國內數據庫的產學研生態,爲數據庫的長期發展作出原創性貢獻。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

依託NDBC平臺,產業數據庫研發論壇是一次學術界和工業界的雙向數據庫技術沙龍,皆在拉近數據庫學術研究和新興互聯網業務需求之間的距離,以實際場景與數據庫頂級學者交流,尋求系統層級的前沿技術突破,搭建企業與高校之間學術合作的橋樑。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 論壇現場座無虛席

論壇受到了學術界和產業界人士的極大歡迎,諸多業界大咖與行業精英共聚一堂,現場座無虛席。李飛飛博士在會上闡述了阿里對於產學研共建的思考,以開放的態度,帶動全行業以更緊密的連結健康發展,展現了阿里作爲行業領頭公司的胸懷和氣魄。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 阿里巴巴集團副總裁、達摩院科學家、數據庫與存儲技術負責人李飛飛博士

李飛飛表示:“數據庫系統是核心的基礎軟件設施,經過多年的發展,形成了一個成熟完善的商業市場和生態圈,全球市場達到400億美金規模。近年來雲計算和大數據市場的蓬勃發展爲數據庫系統這個相對傳統的領域帶來了前所未有的新機遇,數據庫系統需要適應雲原生帶來的挑戰,以及大規模全球化分佈式部署的挑戰。

除此之外,各類型新硬件和機器學習/人工智能技術的快速發展,也要求數據庫系統深入推進軟硬件一體化設計和智能化運維與內核優化等新興技術的應用。最後,數據庫安全是另外一個重要的課題,如何實現高效的加密數據庫系統以及對數據隱私的保護是尚待解決的問題。解決這些挑戰和問題需要學術界和產業界深度合作,從實際應用和系統需求出發來發現並攻克核心難題,幫助大規模工程化實現和商業化部署。

這次研討會藉助NDBC這個平臺,帶來一個難得機遇讓國內產業界和學術界的核心代表共聚一堂,深入探討如何更好的合作和交流。大家也就當前數據庫系統所面臨的熱點問題進行了深入的探索和碰撞,成果顯著。產業論壇會在以後每年的NDBC會議上堅持舉辦下去,大家相信這個論壇一定會對中國數據庫產業和科研事業的發展產生長久而深遠的影響。”

來自阿里巴巴、華爲、東軟集團和華東師範大學的資深技術負責人依次帶來精彩演講,分享了各自面臨的業務挑戰、應對的技術和解決方案,共話數據庫前沿技術與發展趨勢,探討產學研合作如何推進應用落地。

雲原生數據庫POLARDB:自研黑科技 釋放卓越性能
如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 阿里巴巴高級技術專家張友東

阿里巴巴高級技術專家張友東(花名:林青)介紹, POLARDB 是阿里雲自研的關係型數據庫,採用計算與存儲分離的架構,計算節點輕量易擴展,能在秒級完成備節點擴展; 存儲平臺化,支持最大100TB的存儲。POLARDB採用多項黑科技來保證高性能,包括用戶態網絡協議棧,用戶態存儲協議棧,高速RDMA網絡,NVMe SSD,Optane新存儲硬件等,POLARDB滿足了雲上用戶對大容量、高性能、可彈性伸縮數據庫服務的需求。

阿里雲數據庫團隊爲 POLARDB 定製了低延時、高可靠的分佈式文件系統 PolarFS,PolarFS的研究成果已發表在數據庫頂級會議 VLDB 2018 《PolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database》;基於 PolarFS 共享存儲平臺,POLARDB 重新設計了存儲引擎,基於共享存儲做物理複製,極大的降低了 POLARDB IO開銷,讀寫性能相比MySQL有數倍的性能提升;最後,POLARDB 100% 兼容MySQL生態,同時融入到現有的雲產品生態,使得用戶接入無需做業務改造,使用成本極低,目前POLARDB已經開始在阿里雲上服務了數百家企業。

未來 POLARDB 還會做更多的數據庫技術創新,覆蓋更多的雲上數據庫應用場景,爲用戶創造更大的價值。

POLARDB X (Powered By X-DB):全局全域 追求極致
如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 阿里巴巴數據庫事業部資深技術專家何登成

阿里作爲全球最大的在線交易平臺,當下的業務體量非常龐大,需要進行在線事務處理的數據規模在PB量級,在雙十一當天,需要處理的SQL請求甚至達到每秒一億次。阿里巴巴數據庫事業部資深技術專家何登成(花名:圭多)表示:“爲了處理如此龐大的數據量和事務處理能力,我們研發了分佈式關係型數據庫POLARDB X (Powered By X-DB),採用shared-nothing架構,對用戶透明的數據sharding機制。使用優化實現的paxos協議保證數據副本間的一致性,在跨地域部署下也能保證高性能。爲了避免單點失效,使用去中心化的HLC機制實現分佈式事務。”

據悉,POLARDB X還分析了電商業務的訪問特點,爲此專門設計了基於訪問頻度的冷熱數據分層的存儲架構,更好的利用存儲硬件本身的層次。此外,還利用一系列軟硬結合的技術,比如異構計算硬件FPGA來處理計算密集型的後臺任務。POLARDB X力求在性能和成本上同時達到極致,不遠的將來會推動上雲,爲雲上用戶提供更好的數據庫服務。

SolarDB:學術界與工業界智慧碰撞的結晶
如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 華東師範大學數據科學與工程學院教授、副院長周烜老師

SolarDB是一個由華東師範大學、西北工業大學、上海交通銀行聯合開發的,並且在工業界得到實際應用的數據庫系統。SolarDB從開源的OB 0.4版本作爲基礎,歷經多年發展,已經在交通銀行落地,並在很多場景下替換了原有的DB2數據庫。它採用shared-everything架構,由存儲節點(s-node),事務節點(t-node)和計算節點(p-node)組成,其中s-node和p-node可以橫向擴展,而t-node是單節點用於事務處理,這個架構設計在擴展性和複雜性之間找到了很好的平衡。華東師範大學數據科學與工程學院,教授、副院長周烜老師表示:“在高校裏做一個能夠實際應用的數據庫系統非常不易,但是我們一直在堅持做。未來的挑戰也很多,比如:分佈式系統的質量保障,如何兼容商業數據庫等等,都是值得我們去思考的問題。”

SolarDB是學術界和工業界合作研發的數據庫系統,凝聚了華師大師生在數據庫技術發展的思考,並且經過實際業務場景的不斷磨練,已經日漸成熟穩定,將發展地越來越好。

縱觀上述三款OLTP數據庫,在架構、應用場景和技術思考方面各不相同:

架構不同:POLARDB(shared-disk),POLARDB X(shared-nothing),SolarDB(shared-everything)
應用場景不同:POLARDB(雲計算),POLARDB X(大規模互聯網應用),SolarDB(金融業務)
技術思考不同:POLARDB(雲原生、彈性伸縮,100%兼容開源生態,性價比,新硬件),POLARDB X(高性能、低成本,全球部署),SolarDB(擴展性和複雜性的平衡)
雖然OLTP數據庫是數據庫技術領域最成熟、最傳統的一部分,我們看到學術界和產業界在OLTP領域依然有非常多的思考和進展,令人欣喜。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 華爲高斯數據庫團隊首席產品規劃師李思昊

來自華爲高斯數據庫團隊的首席產品規劃師李思昊系統介紹了華爲公司多年來在數據庫領域的投入及產業佈局。華爲在2005年開始投入內存數據庫系統的研發,主要用來支持電信計費業務,其可以實現百萬QPS、單次處理微秒內響應,近年來不斷擴展其內存數據庫產品架構,支持分佈式以及數據持久化能力,向通用型產品發展,具備更高擴展能力。

華爲同時在2012年開始構建分佈式分析型數據庫產品,採用MPP架構,引入 codegen 等新的編譯技術,實現業界領先的分析型能,同時構築在線擴容,升級等關鍵技術,實現系統高可用。其實現國內主要銀行的數據倉庫系統從傳統廠商Teradata數據庫向其產品的全面遷移,同時在國內外也具備一定市場規模。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 東軟集團系統架構師於明光

來自東軟集團的系統架構師於明光分享了機器數據的實時洞察與模式識別。系統對不同客戶環境提出規範,實現了可自控的數據採集,同時用聚類方法使數據可用。於明光指出低頻事件間的關聯和高頻事件在數據挖掘上有很大區別。在即席查詢的場景下,於明光提出半結構化數據查詢上,SQL這樣的結構化查詢語言不是最優的選擇,並提出領域專用語言DSL。他強調,上述技術未來可以擴展到更多更廣泛的領域,將大有可爲。
OLAP 數據庫的技術變革、演進和挑戰
如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 阿里巴巴集團數據庫事業部研究員佔超羣

企業數據的爆炸式增長爲擴大分析策略在企業應用軟件領域的拓展提供了數據基礎,然而由此所帶來的挑戰也是前所未有的,那麼應該如何針對海量數據提供實時在線的靈活處理以及開放的數據分析?阿里巴巴集團數據庫事業部研究員佔超羣(花名:離哲)就此介紹了阿里巴巴在大規模實時在線分析系統方面構建的經驗和未來的技術趨勢展望,重點聚焦在阿里巴巴集團下一代分析數據庫產品AnalyticDB,AnalyticDB是阿里巴巴最早的自研商業級數據庫產品之一,也是最早商業化的自研數據庫產品,其支撐阿里集團的電商、廣告、螞蟻、菜鳥、文娛等衆多在線數據分析業務;以及爲阿里雲上傳統的大中型企業,政府機構,衆多的互聯網創新公司的提供核心的實時分析能力。

AnalyticDB單DB支持2千臺以上的物理節點, 10PB以上的數據存儲管理, 以及高併發低延時分析,幫助業務進入下一代分析和極速探索。其採用分層解耦架構,引進了智能SQL優化器,超大規模的分佈式MPP+DAG融合分析計算引擎,支持行列混合存儲,智能構建多維度索引以及GPU硬件加速等技術,同時融入了文本、圖片、人臉等非結構化數據分析支持,大幅擴展技術邊界和業務邊界。

伴隨着這些年在線分析業務的發展,AnalyticDB在時效性、在線化、複雜度、智能化、可用性和成本上不斷創新發展,做了大量的技術難點突破和創新。通過將數據分析在線化、實時化,幫助用戶發揮數據價值,AnalyticDB已經成長爲能夠改變用戶數據使用方式、行業內領先的商業級數據庫產品。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ 圓桌討論:共話產學研結合現狀和發展趨勢
(左起:張友東、佔超羣、何登成、於明光、周烜、李思昊)

在最後的圓桌會議上,參加論壇的老師、同學與分享嘉賓熱烈交流,共同探討阿里巴巴POLARDB X (Powered By X-DB)、POLARDB、分析型數據庫AnalyticDB以及華爲高斯數據庫的建設經驗與技術難點。嘉賓們對雲計算多租戶解決方案、數據庫高可用方案、數據行列分層存儲、多模數據庫的優勢等技術問題做了詳細的分享。論壇同時探討了高校如何能夠將研發的系統應用到企業的核心繫統,在學生正常流動下保證持續發展,周烜老師詳細分享了華師大研發SolarDB數據庫並在交通銀行的成功建設經驗。

如何攻克數據庫應用頭號難題?數位產學研大咖這樣解讀

▲ NDBC 2018——阿里巴巴參會陣容合影

本屆產業數據庫研發論壇不僅是展現企業自身科研實力與分享成果的重要舞臺,體現了中國數據庫產業在研發和應用方面的最高水平,同時面向未來,爲企業與學術界搭建了合作的橋樑,積極推動產學研合作共同體的構建,共建數據庫產業合作生態。
一直以來,阿里巴巴都非常注重與學術界的合作,用戶的需求推動了技術的一次次更新迭代,讓工業界和學術界的關係更進一步。學術界和工業界在數據庫領域各有所長,阿里巴巴未來將持續深耕科研領域,將學術研究和應用實踐有機結合,積極拓展與學術界的合作,推動產學研一體化,用技術驅動我國數據庫事業的發展。

同時在本屆NDBC會議上,來自阿里巴巴的張瑞、佔超羣和李朝三位資深數據庫技術人成功當選了新一屆中國計算機學會的數據庫專業委員會委員,未來將代表阿里巴巴爲數據庫技術的發展貢獻更多力量。至此,阿里巴巴已經有七名專委。

隨着NDBC產業數據庫研發論壇的舉辦以及更多工業界技術人加入CCF中國數據庫專委會,必將更進一步推動產學研一體化和中國數據庫技術產業的發展,帶領數據庫人砥礪前行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章