降低 Spark 計算成本 50.18 %，使用 Kyligence 湖倉引擎構建雲原生大數據底座，爲計算提速 2x

2023 中國開源未來發展峯會於 5 月 13 日成功舉辦。在大會開源原生商業分論壇，Kyligence 解決方案架構高級總監張小龍發表《雲原生大數據底座演進》主題演講，向與會嘉賓介紹了他對開源發展的見解，數據底座向雲原生湖倉一體架構演進的趨勢，以及 Kyligence 湖倉引擎能夠在構建下一代雲原生數據底座發揮重要價值，通過提升計算性能，大幅度降低計算成本，以下是演講內容：

大家好，本次演講內容包含三個部分：

第一部分的內容，是基於個人經歷、以及所見所聞產生的思考，來談談我對發展開源的一些觀點。

第二部分的內容，是談一談爲什麼我認爲基礎關鍵核心技術將獲得新的發展機遇。

最後一部分，是圍繞新的發展機遇，介紹行業上數據底座的演進趨勢，以及我們公司的一些實踐情況。

在第一部分——開源之我見，我以 Kyligence 公司的過往經歷作爲論據，進而提出三個觀點：

第一個觀點是：開源軟件技術及其商業化是驅動各領域數字化變革的重要力量。

首先介紹下 Apache Kylin 和 Kyligence。

Apache Kylin™是一個開源的、分佈式的分析型數據倉庫。

跬智信息（Kyligence）是由 Apache Kylin 創始團隊於 2016 年創辦，是領先的大數據分析和指標平臺供應商。

大家看到衆多企業 Logo，目前全球有超過1500多家企業使用 Apache Kylin 和 Kyligence 商業產品，解決數字運營和分析決策等方面的痛點。企業的豐富實踐在不斷地驅動開源和商業化發展，同時開源和商業化也在驅動更多的領域實現數字化變革。

Apache Kylin 和 Kyligence 發展較爲成熟，不過這也僅僅是無數開源和開源商業化力量之一，開源和其背後的商業化是驅動各領域數字化變革的重要力量，大力發展這些力量有十分重大的意義和價值。

第二個觀點是：開源軟件生態繁榮依託數字經濟蓬勃發展帶來的溢出效應。

因爲，數字經濟包含了數字產業化和產業數字化兩部分。

首先，通過數字產業化來儲備高水平的技術和數量衆多的人才，行業發展從零和博弈走向協同發展，這是發展好開源的基本條件。

進而，數字產業化產生的技術和人才，會在產業數字化過程中發揮巨大作用。傳統行業的數字化轉型可以通過使用開源項目，支持商業化來加快轉型的步伐，同時爲開源注入可持續發展的動力。

從這條時間線來觀察 Apache Kylin 和 Kyligence 的發展歷程，我認爲可以很好證明這個觀點，2015 年之前， Kylin 項目在 ebay 發展進而貢獻到 Apache 基金會，這是數字產業化的過程，而後恰逢產業數字化高速推進，傳統行業數字化轉型支持了 Kyligence 的商業發展，也爲它注入了動力和活力，使它能夠進一步爲產業數字化貢獻力量，從 2016 年開始 Kyligence 成爲了推動開源 Kylin 演進的重要力量，而後又貢獻了 Byzer 和 Gluten 兩個開源項目。我認爲，影響開源生態繁榮程度的根本，是數字經濟和商業環境的發展水平，大家需要堅持長期主義，堅持合作與共贏。

第三個觀點是：開源軟件生態創造社會價值，尤其需要依靠長期有計劃有組織的投入。

Github 每年會基於託管的開源項目做調查分析，最近一次的結論值得關注。報告提到，大型開源項目幾乎都是由科技公司進行領導和維護，其中多數項目是關鍵基礎技術，例如框架、編譯器、編程語言。而貢獻者數量最大的開源項目背後幾乎都有商業支持。

還是以 Kyligence 爲例，Kyligence 目前領導的 Apache Kylin 之外的兩個項目也取得了不錯的成績。

Byzer 是面向 Data 和 AI 的低代碼開發平臺，因爲提供商業支持，金融業的開源貢獻者也深度參與其中，項目目前應用在金融業等行業的生產業務中。

Gluten 是向量化計算引擎，它的目標是力求做到，相比原生 Spark，其計算性能提升數倍。因爲 Apache Spark 是大數據領域應用極其廣泛的開源分佈式計算引擎之一，因此 Gluten 致力於通過性能的提升以及結合雲計算的彈性，提升現有 Spark 用戶的 IT 算力投資彙報率，爲用戶節省成本。

第二部分，國家提出了建設數字中國大戰略，在這個背景之下，我特別關注數據技術會獲得哪些新的發展機遇，在這部分與大家共同探討。

數字中國建設規劃宏大、系統且全面，我認爲其中對基礎關鍵技術發展促進最大的方面，是來自“2522”框架中“兩大基礎”之一，夯實數字基礎設施這個重要策略。以這幾年大力發展的“東數西算”工程爲例，它佈局規劃了衆多的通用數據中心、超算中心、智能計算中心、邊緣數據中心，並且提出了“異構算力融合、雲網融合、多雲調度、東西協同、數據安全流通……”等一系列的發展要求，這顯而易見會促使人工智能、大數據和雲計算等基礎技術的創新，將他們進行融合、協同應用是未來的重要發展方向。

在“東數西算” 工程中，全國有 8 個國家算力樞紐節點，包含 10 個國家數據中心集羣。重慶集羣和成渝樞紐是其中重要的算力力量，重慶地區相關產業將獲得非常好的發展機會。

而從近期一些地方發佈的算力產業發展政策措施可以看出，以服務器、計算與存儲、雲平臺、數據流通等核心軟硬件爲基礎的國產化雲計算、大數據平臺發展將進入快車道，這將進一步促進人工智能、大數據和雲計算等基礎技術的創新發展，是非常難得的發展機遇。

面對上述機遇，我們認爲大數據、人工智能與雲原生技術的結合，是迎接上述機遇的良好抓手，第三部分與大家分享我們相關的實踐經驗。

我們看到，國內外的頭部企業，如阿里雲和 Databricks，不約而同在推動雲原生架構的數據湖和湖倉一體發展，再結合 Kyligence 的實踐經驗，我們認爲繼Hadoop 之後，在雲原生的 Kubernetes 技術上將形成新一代大數據底座，以 Spark、Flink 等流批計算技術作爲統一的計算引擎，以湖倉爲統一的存儲核心，大幅簡化數據棧複雜度，在其上構建低代碼、低門檻的數據應用，是未來的大勢所趨。

爲順應這樣的趨勢，Kyligence 推出了湖倉引擎，它採用向量化計算技術，兼容 Spark 生態應用，成爲支撐湖倉平臺運行的高性能、敏捷、彈性、開放的引擎。

用戶目前可以在 Kubernetes 容器雲部署試用這項技術，能夠體驗到，向量化 Spark 計算性能相比原生Spark 提升1 倍，計算成本下降 50%。

這項技術正在處於開放試用體驗階段，我們已經有一些企業用戶嘗試拿它來降低公有云上離線計算成本，或者去提升 Hadoop 集羣的計算性能，在一些場景收穫了不錯的效果。

接下來我播放一段 5 分鐘的 Demo 視頻，帶大家來了解：1. 如何部署湖倉引擎；2. 如何與原生 Spark 對比性能；3. 用戶如何用新的引擎執行自定義 SQL，查詢或處理自定義的數據；4. 用戶如何快速添加自定義版本計算引擎，與湖倉引擎做成本對照。

未來我們計劃進一步增強向量化 Spark 引擎的性能和兼容性，加強與各類 Spark 應用的連接和協同。與雲原生技術充分結合，提升引擎的彈性、敏捷性和性能，大幅度提升計算能效、大幅度降低計算成本；並通過開放的策略，爲用戶提供可靠、可持續的支持。

在彈性方面，將做到資源按需取用，負載極速擴縮，資源高度隔離；
在高性能方面，將使向量化計算的算子進一步得到增強，兼容通用計算平臺，支持利用多種架構芯片來進行計算加速；
在敏捷方面，將支持運行在異地異構的計算平臺，支持多雲跨雲；
在開放方面，我們將始終開放接口標準，並且始終兼容 Spark 標準接口，與 Spark 生態中其他技術做好融合，承接好國產化、信創建設要求，在與企業商業合作的同時，開放核心源代碼，支持企業對核心基礎技術做到自主可控，確保軟件供應鏈的可靠可信。

接下來把 Kyligence 湖倉引擎與 Apache Spark 在 TPC-H 場景下測試報告分享給大家，可以看到向量化的 Spark 引擎通過性能提升，節省了一半的計算資源，爲用戶降低了 50% 的使用成本。自從決定對他提供商業化支持後，Kyligence 正在加倍投入資源，使這項技術以更快的速度進步。我們希望有更多的原本使用 Spark 作爲計算引擎的用戶，能嘗試使用 Kyligence 湖倉引擎來獲得更低的使用成本，更好的使用體驗，邀請大家一起推動這項新技術進步、產生價值。

大家可以掃屏幕上的二維碼，關注 Kyligence ，加入湖倉引擎試用交流羣，或者添加我個人的微信做進一步交流，我今天的分享就到這裏，謝謝大家！

再次感謝大會主辦方邀請，我們願意與各位一起，爲中國開源事業的可持續發展，爲數字中國建設添磚加瓦。

有興趣免費試用 Kyligence 湖倉引擎的聽衆請掃碼或者點擊鏈接填寫相關信息。提交後，我們將會發送Kyligence 湖倉引擎的免費試用鏈接到您的郵箱。

降低 Spark 計算成本 50.18 %，使用 Kyligence 湖倉引擎構建雲原生大數據底座，爲計算提速 2x

致遠OA及相關OA系統集成與二次開發

EXCEL公式使用總結

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

[轉帖]linux命令top內存顯示M兆或者G

【面試準備】項目經驗——接口自動化項目

edit with vim

windows 安裝 mysql8.0 服務免安裝版

ci 404 問題總結

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

BizDevOps全局建設思路：橫向串聯，縱向深化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結