降低 Spark 計算成本 50.18 %,使用 Kyligence 湖倉引擎構建雲原生大數據底座,爲計算提速 2x

2023 中國開源未來發展峯會於 5 月 13 日成功舉辦。在大會開源原生商業分論壇,Kyligence 解決方案架構高級總監張小龍發表《雲原生大數據底座演進 》主題演講,向與會嘉賓介紹了他對開源發展的見解,數據底座向雲原生湖倉一體架構演進的趨勢,以及 Kyligence 湖倉引擎能夠在構建下一代雲原生數據底座發揮重要價值,通過提升計算性能,大幅度降低計算成本,以下是演講內容:

大家好,本次演講內容包含三個部分:

第一部分的內容,是基於個人經歷、以及所見所聞產生的思考,來談談我對發展開源的一些觀點。

第二部分的內容,是談一談爲什麼我認爲基礎關鍵核心技術將獲得新的發展機遇。

最後一部分,是圍繞新的發展機遇,介紹行業上數據底座的演進趨勢,以及我們公司的一些實踐情況。

在第一部分——開源之我見,我以 Kyligence 公司的過往經歷作爲論據,進而提出三個觀點:

第一個觀點是:開源軟件技術及其商業化是驅動各領域數字化變革的重要力量。

首先介紹下 Apache Kylin 和 Kyligence。

Apache Kylin™是一個開源的、分佈式的分析型數據倉庫。

跬智信息(Kyligence)是由 Apache Kylin 創始團隊於 2016 年創辦,是領先的大數據分析和指標平臺供應商。

大家看到衆多企業 Logo,目前全球有超過1500多家企業使用 Apache Kylin 和 Kyligence 商業產品,解決數字運營和分析決策等方面的痛點。企業的豐富實踐在不斷地驅動開源和商業化發展,同時開源和商業化也在驅動更多的領域實現數字化變革。

Apache Kylin 和 Kyligence 發展較爲成熟,不過這也僅僅是無數開源和開源商業化力量之一,開源和其背後的商業化是驅動各領域數字化變革的重要力量,大力發展這些力量有十分重大的意義和價值。

第二個觀點是:開源軟件生態繁榮依託數字經濟蓬勃發展帶來的溢出效應。

因爲,數字經濟包含了數字產業化和產業數字化兩部分。

首先,通過數字產業化來儲備高水平的技術和數量衆多的人才,行業發展從零和博弈走向協同發展,這是發展好開源的基本條件。

進而,數字產業化產生的技術和人才,會在產業數字化過程中發揮巨大作用。傳統行業的數字化轉型可以通過使用開源項目,支持商業化來加快轉型的步伐,同時爲開源注入可持續發展的動力。

從這條時間線來觀察 Apache Kylin 和 Kyligence 的發展歷程,我認爲可以很好證明這個觀點,2015 年之前, Kylin 項目在 ebay 發展進而貢獻到 Apache 基金會,這是數字產業化的過程,而後恰逢產業數字化高速推進,傳統行業數字化轉型支持了 Kyligence 的商業發展,也爲它注入了動力和活力,使它能夠進一步爲產業數字化貢獻力量,從 2016 年開始 Kyligence 成爲了推動開源 Kylin 演進的重要力量,而後又貢獻了 Byzer 和 Gluten 兩個開源項目。我認爲,影響開源生態繁榮程度的根本,是數字經濟和商業環境的發展水平,大家需要堅持長期主義,堅持合作與共贏。

第三個觀點是:開源軟件生態創造社會價值,尤其需要依靠長期有計劃有組織的投入

Github 每年會基於託管的開源項目做調查分析,最近一次的結論值得關注。報告提到,大型開源項目幾乎都是由科技公司進行領導和維護,其中多數項目是關鍵基礎技術,例如框架、編譯器、編程語言。而貢獻者數量最大的開源項目背後幾乎都有商業支持。

還是以 Kyligence 爲例,Kyligence 目前領導的 Apache Kylin 之外的兩個項目也取得了不錯的成績。

Byzer 是面向 Data 和 AI 的低代碼開發平臺,因爲提供商業支持,金融業的開源貢獻者也深度參與其中,項目目前應用在金融業等行業的生產業務中。

Gluten 是向量化計算引擎,它的目標是力求做到,相比原生 Spark,其計算性能提升數倍。因爲 Apache Spark 是大數據領域應用極其廣泛的開源分佈式計算引擎之一,因此 Gluten 致力於通過性能的提升以及結合雲計算的彈性,提升現有 Spark 用戶的 IT 算力投資彙報率,爲用戶節省成本。

第二部分,國家提出了建設數字中國大戰略,在這個背景之下,我特別關注數據技術會獲得哪些新的發展機遇,在這部分與大家共同探討。

數字中國建設規劃宏大、系統且全面,我認爲其中對基礎關鍵技術發展促進最大的方面,是來自“2522”框架中“兩大基礎”之一,夯實數字基礎設施這個重要策略。以這幾年大力發展的“東數西算”工程爲例,它佈局規劃了衆多的通用數據中心、超算中心、智能計算中心、邊緣數據中心,並且提出了“異構算力融合、雲網融合、多雲調度、東西協同、數據安全流通……”等一系列的發展要求,這顯而易見會促使人工智能、大數據和雲計算等基礎技術的創新,將他們進行融合、協同應用是未來的重要發展方向。

在“東數西算” 工程中,全國有 8 個國家算力樞紐節點,包含 10 個國家數據中心集羣。重慶集羣和成渝樞紐是其中重要的算力力量,重慶地區相關產業將獲得非常好的發展機會。

而從近期一些地方發佈的算力產業發展政策措施可以看出,以服務器、計算與存儲、雲平臺、數據流通等核心軟硬件爲基礎的國產化雲計算、大數據平臺發展將進入快車道,這將進一步促進人工智能、大數據和雲計算等基礎技術的創新發展,是非常難得的發展機遇。

面對上述機遇,我們認爲大數據、人工智能與雲原生技術的結合,是迎接上述機遇的良好抓手,第三部分與大家分享我們相關的實踐經驗。

我們看到,國內外的頭部企業,如阿里雲和 Databricks,不約而同在推動雲原生架構的數據湖和湖倉一體發展,再結合 Kyligence 的實踐經驗,我們認爲繼Hadoop 之後,在雲原生的 Kubernetes 技術上將形成新一代大數據底座,以 Spark、Flink 等流批計算技術作爲統一的計算引擎,以湖倉爲統一的存儲核心,大幅簡化數據棧複雜度,在其上構建低代碼、低門檻的數據應用,是未來的大勢所趨。

爲順應這樣的趨勢,Kyligence 推出了湖倉引擎,它採用向量化計算技術,兼容 Spark 生態應用,成爲支撐湖倉平臺運行的高性能、敏捷、彈性、開放的引擎

用戶目前可以在 Kubernetes 容器雲部署試用這項技術,能夠體驗到,向量化 Spark 計算性能相比原生Spark 提升1 倍,計算成本下降 50%。

這項技術正在處於開放試用體驗階段,我們已經有一些企業用戶嘗試拿它來降低公有云上離線計算成本,或者去提升 Hadoop 集羣的計算性能,在一些場景收穫了不錯的效果。

接下來我播放一段 5 分鐘的 Demo 視頻,帶大家來了解:1. 如何部署湖倉引擎;2. 如何與原生 Spark 對比性能;3. 用戶如何用新的引擎執行自定義 SQL,查詢或處理自定義的數據;4. 用戶如何快速添加自定義版本計算引擎,與湖倉引擎做成本對照。

未來我們計劃進一步增強向量化 Spark 引擎的性能和兼容性,加強與各類 Spark 應用的連接和協同。與雲原生技術充分結合,提升引擎的彈性、敏捷性和性能,大幅度提升計算能效、大幅度降低計算成本;並通過開放的策略,爲用戶提供可靠、可持續的支持。

  • 在彈性方面,將做到資源按需取用,負載極速擴縮,資源高度隔離;
  • 在高性能方面,將使向量化計算的算子進一步得到增強,兼容通用計算平臺,支持利用多種架構芯片來進行計算加速;
  • 在敏捷方面,將支持運行在異地異構的計算平臺,支持多雲跨雲;
  • 在開放方面,我們將始終開放接口標準,並且始終兼容 Spark 標準接口,與 Spark 生態中其他技術做好融合,承接好國產化、信創建設要求,在與企業商業合作的同時,開放核心源代碼,支持企業對核心基礎技術做到自主可控,確保軟件供應鏈的可靠可信。

接下來把 Kyligence 湖倉引擎與 Apache Spark 在 TPC-H 場景下測試報告分享給大家,可以看到向量化的 Spark 引擎通過性能提升,節省了一半的計算資源,爲用戶降低了 50% 的使用成本。自從決定對他提供商業化支持後,Kyligence 正在加倍投入資源,使這項技術以更快的速度進步。我們希望有更多的原本使用 Spark 作爲計算引擎的用戶,能嘗試使用 Kyligence 湖倉引擎來獲得更低的使用成本,更好的使用體驗,邀請大家一起推動這項新技術進步、產生價值。

大家可以掃屏幕上的二維碼,關注 Kyligence ,加入湖倉引擎試用交流羣,或者添加我個人的微信做進一步交流,我今天的分享就到這裏,謝謝大家!

再次感謝大會主辦方邀請,我們願意與各位一起,爲中國開源事業的可持續發展,爲數字中國建設添磚加瓦。

有興趣免費試用 Kyligence 湖倉引擎的聽衆請掃碼或者點擊鏈接填寫相關信息。提交後,我們將會發送Kyligence 湖倉引擎的免費試用鏈接到您的郵箱。

                                                                        

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章