解讀數據庫的 2021：資本進來添了一把火，開源已佔據半壁江山

2021 年以來，企業數字化轉型進入深水區，行業數字化場景爆發式增長，數據以指數級數量增長。就在去年，我國也明確了數據在市場化配置過程中成爲了繼土地、勞動力、技術、資本之後的第五大生產要素，數據在社會發展進程中的重要性不言而喻。

承擔數據存儲與計算的數據庫與操作系統、中間件並列爲三大基礎軟件，數據庫的種類非常多，常見的有從數據模型上對其進行劃分的，包括關係型數據庫、文檔型數據庫、圖模型數據庫，以及綜合了多種模型的多模數據庫等；再有從架構角度區分的，有單機型數據庫、主備數據庫、分佈式數據庫等；還有從應用類型的角度區分的，如 OLTP、OLAP 等；以及從技術特徵區分的，帶有時代特性，如 NoSQL、NewSQL 等。所以嚴格來講，數據庫沒有固定的劃分標準。

那麼，整體來看，數據庫領域 2021 年發生了哪些值得關注的大事件？業內資深大咖們又觀察到了哪些技術趨勢？

2021 年數據庫領域重大事件回顧

2 月 24 日，華爲雲正式發佈雲數據庫 GaussDB（for openGauss）全網商用。GaussDB（for openGauss）是華爲基於 openGauss 自研生態推出的企業級分佈式數據庫，能爲企業提供高可用、功能完備、性能卓越、開放生態、極致彈性的企業級數據庫服務。

2021 年 3 月 19 日，中央政府採購網發佈《中央國家機關 2021 年數據庫軟件協議供貨採購項目成交公告》，21 家數據庫廠商入圍，其中除了甲骨文的 Oracle 和微軟的 SQL Server，其餘全部爲國產數據庫，份額達到 90%。

3 月 12 日，新華社授權全文播發《中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要》。其中值得關注的是，“開源”首次被明確列入國民經濟和社會發展五年規劃綱要。

4 月 25 日，PingCAP 正式發佈面向企業級核心場景的 TiDB 5.0 版本。TiDB 5.0 在性能、穩定性、易用性等方面均取得了巨大進步，並在事務處理、高可用與容災、安全合規等方面新增多項企業級特性，通過引入 MPP （Massively Parallel Processing，即大規模並行處理）架構成爲具備完整 HTAP 能力的分佈式數據庫，爲企業數字化轉型提供一棧式數據服務平臺。

5 月 11 日，浪潮發佈開源國產數據庫 ZNBase 2021 發展規劃。ZNBase 是浪潮開源的一款 NewSQL 分佈式數據庫，具備強一致、高可用分佈式架構、分佈式水平擴展、高性能、企業級安全等特性，支持完整 ACID，支持 PostgreSQL 協議訪問，同時提供自動化運維、監控告警等配套服務。可爲用戶提供完整的分佈式數據庫解決方案。

5 月 18 日，騰訊雲發佈首款全自研分佈式分析型數據庫 TDSQL-A，以應對海量數據實時分析需求。這是騰訊雲數據庫在品牌升級後的首次新品發佈。TDSQL-A 是騰訊首款全自研的分佈式分析型數據庫，支持行列混合存儲，適應於海量 OLAP 關聯分析查詢場景，全面兼容 PostgreSQL 語法、高度兼容 Oracle 語法。

6 月 1 日，螞蟻集團自研數據庫 OceanBase 宣佈開源，開放近 300 萬行源代碼，採用木蘭協議，代碼託管主站在 Gitee，鏡像在 GitHub，同時成立 OceanBase 開源社區，社區官網同步上線。最新的 OceanBase 3.0 版本，讓 OceanBase 同時具備了在事務處理和數據分析兩類任務的高性能能力，升級爲一款支持 HTAP 混合負載的企業級分佈式數據庫。和過去相比，事務處理性能提升 50%，數據分析性能提升 10 倍。

6 月 10 日，《中華人民共和國數據安全法》（簡稱《數據安全法》）經十三屆全國人大常委會第二十九次會議表決通過，並將於 2021 年 9 月 1 日起正式施行。《數據安全法》出臺，標誌着我國將數據安全保護的政策要求，通過法律文本的形式進行了明確和強化，爲數據作爲新的生產要素推動創新和經濟發展提供了法律依據，將爲下一階段數字經濟的安全發展保駕護航。

6 月 20 日，全球公認三大數據庫頂尖會議之首的 SIGMOD 在西安舉辦，這也是時隔 14 年後 SIGMOD 大會再度迴歸（2007 年 SIGMOD 第一次在中國北京舉辦）。

7 月 8 日，阿里雲 RDS 數據庫進行品牌升級，推出雲原生企業級自治數據庫。

7 月 9 日，國家電網有限公司具有自主知識產權的電力行業圖數據庫產品“GridGraph”在 2021 世界人工智能大會正式發佈。中國工程院院士倪光南表示：“在圖數據庫自主創新方面，我國從 2019 年起開始自主研製電力專用圖數據庫，實現了核心技術工具的技術創新和自主可控，有力支撐了‘電網一張圖’建設。

經過了近三個月的沉澱後，9 月 1 日，《數據安全法》正式落地實施。中國信息通信研究院聯合 30 餘家單位正式發起“數據安全推進計劃”（Data Security Initiative，以下簡稱“DSI”）。DSI 是一個公益性合作項目，將依託大數據協同安全技術國家工程實驗室、中國通信標準化協會大數據技術標準推進委員會、中國互聯網協會數據治理工作委員會開展具體工作，致力於打造健康規範的數據安全生態體系，幫助企業瞭解監管要求，全方位提升企業數據安全能力。

9 月 17 日，TiDB 社區首批通過可信開源社區評估，獲評 OSCAR 尖峯開源項目及開源社區。會上中國信通院雲大所所長何寶宏發佈了由 PingCAP 和中國信通院聯合撰寫的業內首個《開源社區成熟度白皮書》。

10 月 20 日，阿里雲在 2021 雲棲大會現場宣佈正式開源雲原生分佈式數據庫 PolarDB-X 的源代碼，將自研雲原生分佈式核心技術分享出來，進一步推動雲原生分佈式數據庫發展。

12 月 20 日，OceanBase 通過工信部電子標準院首批開源項目成熟度評估。

這一年，從業者看到的幾大現象

近兩年，作爲基礎軟件之一，數據庫可以稱得上是最火熱的一個賽道，這背後根本的原因是因爲大家認識到了數據的重要性。技術發展到如今，上層應用和底層基礎設施發生的了翻天覆地的變化，而這種變化一定會推動中間層——數據庫的變化，也就是說，光靠傳統的狹義的數據庫已經無法解決當下的新需求了，我們需要一些新內容注入到數據庫中。而這一年，關於數據庫的發展，從業者眼中看到了幾大現象。

數據庫產品工程化程度變高

多家產品走向金融行業，開始落地生產環境

2010 年起，隨着雲計算技術的快速興起，雲數據庫技術也順勢得到了迅猛發展，這給了國產數據庫廠商彎道超車的機會。多家產品走向金融行業，開始落地生產環境。在過去的一年裏，騰訊雲 TDSQL 落地在中國銀行和農業銀行等；OceanBase 在金融行業擁有多個標杆案例客戶如工商銀行、建設銀行、南京銀行、廣東農信、中華財險等，另外在運營商場景中也有落地，客戶數突破 400+；而華爲 GaussDB（for openGauss），主打政企核心業務負載的金融級分佈式數據庫，在性能、可用性、彈性方面全面提升，並且已經受金融業務全場景的嚴苛考驗；PingCAP TiDB 成功應用於浦發銀行、北京銀行、浙商銀行、中國人壽、平安科技、微衆銀行等多家金融企業的聯機交易、在線支付、信貸管理、實時風控等場景。

各類型數據庫走向“大一統”

隨着雲上技術和基礎設施的日臻成熟，數據庫領域迎來了的“大一統”。

數據庫的種類紛繁複雜，以前集中式數據庫和分佈式之間有明顯的邊界，而近年來，這條邊界正在逐漸模糊，集中式數據庫和分佈式數據庫在慢慢融合，兩者能夠在同一套架構裏互有補益，這是第一種融合。

其次，OLTP 數據庫跟 OLAP 數據庫也在融合，比如 OceanBase 底層是基於原生分佈式架構，在解決數據量問題的同時，在一套系統裏又能做好交易、也能做好分析，這是 OLTP 和 OLAP 的融合；TiDB 今年發佈的 5.0 版本也提供了完整的 HTAP 混合負載處理能力，引入了 MPP 引擎，在實時性與一致性前提下實現 OLTP 和 OLAP 負載完全隔離，在中通快遞雙十一等讀寫雙高的極致場景下提供優異的性能和穩定性。

第三個融合，是傳統數據庫跟炙手可熱的大數據之間的融合。傳統數據庫更偏向結構化、事務化的數據的處理，大數據更偏向非結構化、非事務化的數據的處理。當前新型的數據庫，既能處理傳統數據庫擅長的事務型工作，又能適配大量的 SQL 語法兼容當前的數據開發工作，甚至能進行非結構化、分佈式計算的大數據類型工作，所以數據庫基本上是朝着一個融合的趨勢發展的。

其實數據庫的“大一統”是業內人士一直在嘗試去做的事情，只是彼時苦於雲上技術和基礎設施不夠成熟而無法實現。但是最近兩年，這些條件基本已經成熟了，所以 HTAP 才能變成了可能。

甩掉“落伍”數據庫的包袱

因此甩掉“落伍”的數據庫的包袱，對數據庫的發展來說是一個利好。

新型數據庫的迅速崛起，給傳統數據庫帶來了一定衝擊。以 Hadoop 爲例，Apache Hadoop 作爲一個完整的開源大數據套件，在過去的十多年裏深刻影響了整個計算機界，但隨着各類新興技術的發展，面對種種新需求時，Hadoop 已經明顯“力不從心”了。就在今年，13 個與大數據相關的 Apache 項目（包括 Sentry、Tajo 和 Falcon）宣佈取消，這就給了新技術庫騰出了更多的發展空間。

數據庫的發展必須要跟業務場景相結合，新的技術要有場景和人去使用纔會有它的進步空間，如果老舊的數據庫架構一直佔用着有限的應用場景，那麼新技術的發展空間就會受到限制，因此甩掉“落伍”的數據庫的包袱，對數據庫的發展來說是一個利好。

資本進入，爲數據庫添了一把火

資本的進入，爲數據庫領域添了一把火。

資本都是逐利的，而在基礎軟件領域，數據庫無疑是最受資本青睞的一塊“大蛋糕”。2020 年 9 月，Snowflake 在紐約證券交易所上市，讓人震驚的是，上市首日股價大漲超 110%，估值翻了一番多，從 330 億美元增至 700 多億美元，並一舉成爲了美國有史以來 IPO 規模最大的一家軟件公司。

Snowflake 在股市中的強勁表現背後釋放出了一種信號：開源及數字基礎設施被資本盯上了！據《2021 年數據庫發展研究報告》顯示，從融資總量上看，我國數據庫產業投融資在近幾年呈井噴式爆發。從 2013 年開始，數據庫企業逐步吸引了資本的目光。

據不完全統計，2021 年各企業完成千萬級甚至上億級融資數量在 14 輪以上。對比我國數據庫初創企業成立時間分佈可以看出，衆多初創數據庫企業經過幾年的技術積累與市場運作，已逐步在資本市場嶄露頭角。資本的進入，爲數據庫領域添了一把火。

圖片來源：國家工信安全中心整理

2022 年數據庫未來展望

數據庫並不是一個新領域，它已經發展了 40 年，可作爲基礎軟件之一，它是一個既傳統又古老的領域。回顧數據庫的發展歷史，1980 年到 1990 年屬於商業起步階段，此時 Oracle、IBM DB2、Sybase 以及 SQL Server 和 Informix 等開始出現。1990 年至 2000 年，開源數據庫開始展露頭角，出現了 PostgreSQL 和 MySQL 等。

在剛剛過去的 2021 年，隨着資本的強勢進入，各類型數據庫趨於融合，數據庫未來的發展趨勢也將會發生一些改變，主要概括爲以下幾點：

開源將更加深入

就我國目前基礎軟件的現狀來看，尤其是數據庫領域，如果不做開源，基本上是不太有未來的。

最早的技術軟件，比如一些數據庫、存儲和商業軟件，其他都是不開源的，但是發展到一定階段以後，都要經歷開源的過程，數據庫領域也是如此，主要原因在於：

第一、就我國目前基礎軟件的現狀來看，尤其是數據庫領域，如果不做開源，基本上是不太有未來的。這背後的這個原因很簡單：對於用戶來說，對於數據庫這樣重要的基礎軟件來說，如果它是一個黑盒，那麼用戶很難對它產生信任；

第二、開源的數據庫更容易構建出屬於開源數據庫的生態。如果你是個閉源的數據庫，就會將很多想要尋求合作的夥伴拒之門外，而且數據庫如果最後要成熟、成功，它必須要依靠生態去推進，單純依靠一項技術或者一個軟件很難去構建出生態；

第三、現在的業務場景都是非常敏捷的，如果不是開源數據庫，沒有很好的開源社區來貢獻力量，那麼數據庫廠商的視角永遠是滯後的，因爲只有搞業務的人才知道這個東西應該怎麼用以及應該往什麼方向發展。閉源的數據庫反饋鏈條會特別長，而業務變化又很快，所以它是跟不上時代進步的。

而隨着開源的日益深入，商業數據庫的市場也受到了一定的衝擊，有一些閉源的數據庫的廠商，就可能退出歷史舞臺。然而，這種衝擊也並非全是壞事，更多的數據庫廠商在看到了這種衝擊後，很快找到了一條可以平衡開源和商業化的道路。

其實開源數據庫離真正的商業需求還是有一定差距的，開源數據庫無法定製化地滿足一些客戶的特定需求和服務，這時候就需要開源數據庫的商業版來彌補這樣的不足，所以每一家雲廠商還是能夠在開源背後平衡好兩者之間的關係的，當越來越多的人去使用數據庫去解決它的業務問題時，將會創造更大的市場。

“雲 + 分佈式”數據庫是大勢所趨

所有面向雲設計的數據庫一定是分佈式的。

2021 年，數據庫領域可謂是百花齊放。而這其中，分佈式數據庫的表現尤爲亮眼，很多業內人士將這一年視爲分佈式數據庫的元年。

分佈式數據庫由多個相互連接的數據庫組成，這些數據庫組合在一起形成一個面向用戶的單個數據庫。實際上它們分佈在各個數據中心，通過中央服務器進行通信。分佈式數據庫具有高可擴展性、高併發性和高可用性的特點。

根據 Gartner 測算，全球分佈式數據庫軟件市場規模持續走高，年複合增長率達 16.9%；而根據 IDC 的預測，中國的關係型數據庫的市場則發展更加迅猛，年複合增長率接近 30% 左右，在這其中雲數據庫和分佈式數據庫的增長貢獻非常大。

所有面向雲設計的數據庫一定是分佈式的。Gartner 指出，雲計算將主導數據庫市場的未來，到 2022 年，75% 的數據庫將被部署或遷移至雲平臺，只有 25% 的數據庫會在本地運行。隨着企業業務更加數字化、智能化，企業面臨的數據存儲量將會更加巨大，面臨着更多突發狀況帶來的挑戰，想要進一步降本增效並讓數據更好地進行決策，那麼就需要進入“雲 + 分佈式”的時代。

DB-Engines 今年 12 月份數據庫排名顯示，傳統數據庫霸主 Oracle 依然穩居榜首，但據去年同期分數下跌 43.86；知名開源數據庫 MySQL 位列第二，分數較去年同期下跌 49.41，較上個月下跌 5.48；而位居榜三的微軟 SQL Server 分數較去年同期下跌 84.07，穩佔“同期跌幅榜冠軍”。

此外，從 DB-Engines 發佈的數據上還可以看出，開源數據庫 PostgreSQL、MongoDB 雖然排名不及 Oracle 和微軟 SQL Server，且短時間內與兩者有一定差距，但 PostgreSQL 的分數較去年同期上漲 60.64，穩穩拿下了“本月同期漲幅冠軍”。

圖片來源：DB-Engines

圖片來源：墨天輪

在全社會都在積極進行數字化轉型的大背景下，傳統數據庫的很多技術如緩衝區管理、各種對象的創建等都受到了資源的限制，因此很難有更廣闊的發展空間，而云原生數據庫、開源數據庫等新一代數據庫正在加速崛起。

原創硬核技術將成爲驅動企業成長的原動力

原創硬核技術的核心價值在於具有突破性，能帶來巨大的增量空間。

任何一項技術，沒有原創性、沒有壁壘，都不過是空中樓閣，數據庫產品也是如此。最近幾年，對於數據庫基礎理論的研究也更加深入，許多廠商開始重視基礎技術理論研究，這是一個好的開端。如 TDSQL 在事務處理的併發訪問控制層面，對最核心的數據異常問題能展開體系化的研究，提出數據異常並指明造成問題的本質，並對數據異常進行分類研究，指出數據異常和隔離級別等的關係等。這就是基礎理論的進步推動了具體技術的迭代。國產自研數據庫技術要想進步，就需要在基礎理論層面多做工作，基礎理論的突破，會帶來巨大的增量空間。

AI 和數據庫更加融合

AI 與數據庫是相互輔助的關係。

在過去的五十年中，數據庫（DB）和人工智能（AI）技術都得到了廣泛的應用。數據庫系統已在金融、醫療等多個領域中得到使用，而人工智能技術藉助算法、數據集、硬件等方面的進步，近三十年取得了飛速發展。二者的交叉技術通過結合數據庫中系統設計、查詢優化、數據管理等方面的技術和人工智能從歷史數據中學習的優勢，幫助解決各自的問題。

數據和人工智能，像一枚硬幣的正反面，兩者是不分家的。作爲承載數據的數據庫，它與人工智能的關係也同樣十分緊密，人工智能中間的一些過程，比如存儲、智能推薦等都要用到數據庫，而人工智能也需要爲數據庫服務，比如當下很火的自治數據庫，能做一些智能的搜索、優化、運維等工作，背後也都是 AI 的力量在推動，在數據庫中融入 AI，會讓那些靠人工操作基本搞不定的工作變得更簡單，所以 AI for DB 是一條很新，但必須要走的路。

解讀數據庫的 2021：資本進來添了一把火，開源已佔據半壁江山

2021 年數據庫領域重大事件回顧

這一年，從業者看到的幾大現象

數據庫產品工程化程度變高

各類型數據庫走向“大一統”

甩掉“落伍”數據庫的包袱

資本進入，爲數據庫添了一把火

2022 年數據庫未來展望

開源將更加深入

“雲 + 分佈式”數據庫是大勢所趨

原創硬核技術將成爲驅動企業成長的原動力

AI 和數據庫更加融合

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

BGE M3-Embedding 模型介紹

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

新一代數據分析及實時數倉平臺Greenplum，助力企業數字化轉型

深度揭祕Greenplum數據庫透明加密

Greenplum助力AI科學計算

解讀數據庫的 2021：資本進來添了一把火，開源已佔據半壁江山

Greenplum完全兼容歐拉開源操作系統，雙社區聯合發佈白皮書

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結