十四年後重返中國,SIGMOD 背後的數據庫技術變遷

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在當前,隨着新一輪技術浪潮的興起,以傳統計算機技術爲基礎的信息時代正逐步過渡到由人工智能、雲計算等關鍵技術驅動,各領域趨向融合的信息新時代。在這一背景下,數據庫技術也正朝着嶄新的方向不斷髮展。前不久剛結束的 ACM SIGMOD 2021 大會上,就湧現出很多值得關注的前沿技術熱點。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了讓更多的數據庫從業者能瞭解數據庫領域的最新研究成果,熟悉行業前沿發展趨勢,近日,騰訊雲數據庫聯合深圳計算機學會數據科學與工程(DSE)專委會,舉辦了一場圍繞 SIGMOD 2021 與數據庫前沿研究熱點的線上研討會分享活動。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"深圳大學計算機與軟件學院、深圳計算科學研究院秦建斌老師,南方科技大學數據庫團隊負責人唐博老師,南方科技大學數據庫團隊晏瀟老師,騰訊金融雲數據庫 TDSQL 資深研究員、騰訊雲數據庫專家工程師李海翔,以及主持人騰訊雲數據庫高級工程師趙展浩,多位學術專家與研究者在直播中各抒己見。以下是分享回顧。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/d5\/d517d617d3d52dcb790ed7653942ce50.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"精華搶先看"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"秦建斌:"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"在更大規模數據的驅動下,將持續催生數據 driven 的 AI+ 數據庫結合等新應用。同時,數據規模的不斷增大,也使得數據治理變得愈發重要,我更加傾向於關注整個數據從創建到分析利用的整個生命週期。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"2007 年 SIGMOD 第一次在中國北京舉辦,當時論文接收率僅爲 14.6%;時隔了 14 年,今年第二次在中國舉辦,研究型與工程型論文的接收率都有所提高。這體現的其實是數據管理技術本身的一些變化,隨着雲計算、大數據、智能計算等技術的演進,作爲底層技術,數據庫從傳統的只關注 Management Of Data 開始向 Data Science 還有 Data Engineering 方面進行了拓展。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"唐博:"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"我認同未來不僅要關注數據跑得快不快,還需要關注數據質量高不高——因爲整個數據庫系統是一個閉環,底層數據質量直接影響上層應用。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Cloud-Native Database System 來看,現在是處於百花齊放的狀態,但還缺乏支配性的產品和應用,不管是企業,還是學術界,肯定會有越來越多的研究成果,越來越多的創新技術出現,使得 Cloud-Native Database System 逐漸成熟。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"晏瀟:"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"今年的 SIGMOD 可以看到很多關於 DB for Machine Learning 和 Machine Learning for DB 方面的成果,這意味着整個數據庫的外延已經被拓寬到更加豐富的應用上。基於機器學習的 index 和查詢優化值得長期關注,這其中我比較關注相似性檢索和 LSH,現階段我們也在研究利用機器學習來增強 index 和檢索。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"前沿成果越來越多是產學研合作的產物,深度的產學研合作融合是數據庫基礎研究創新的重要推動力。做有影響力的研究,要更多看向工業界,和工業界真實的需求和應用場景相結合。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 李海翔:"}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"從 2017 年起,"},{"type":"link","attrs":{"href":"https:\/\/cloud.tencent.com\/product\/dcdb\/","title":"xxx","type":null},"content":[{"type":"text","text":"TDSQL"}]},{"type":"text","marks":[{"type":"strong"}],"text":" 開始前沿技術的研究,積極參與了 VLDB、SIGMOD、ICDE 等國際會議。在公司內部,有長期的研究積累,認爲事務處理將是分佈式數據庫需要從基礎理論層面突破的方向。在研究的過程中,瞄準業界難題,把高性能分佈式事務下的“事務一致、分佈式一致”雙一致性等難題列入研究範圍。TDSQL 在分佈式事務型數據庫中,首次提出順序可串行化,有效區分了嚴格可串行化、順序可串行化、可串行化的異同,豐富了分佈式數據庫中只有“嚴格可串行化”一個可串行化級別的體系,並進一步提出了多種強一致性的完整技術,在實現分佈式數據庫“雙一致性”的同時,保持了良好的系統處理效率。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"從首次舉辦到重返中國,14 年間數據庫歷經哪些技術變遷?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"趙展浩:"},{"type":"text","text":"時隔 14 年以後,SIGMOD 今年再次來到中國。從首次在中國舉辦到重返中國,透過 SIGMOD 的 14 年發展,我們可以看到數據庫歷經哪些技術變遷?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"秦建斌:"},{"type":"text","text":"從數據庫系統來看,其實數據庫整體的理論模型在這十年或者在過去二十年並沒有發生一個巨大的變化,但是逐步也呈現出從以前的單機數據庫到現在向雲、向 NoSQL、分佈式等平臺進行分化演進的趨勢。過去十年,數據技術領域經歷了從大數據,到數據湖的發展,數據規模的不斷增大催生了一系列新的應用。其次,在更大規模的數據環境驅動下,繼續催生了數據 driven 的 AI+ 數據庫結合的新應用。近年來的 DB for AI 和 AI for DB——AI 和數據庫交叉相關的課題非常多。最後,在數據規模變大的情況下,數據治理也顯得愈發重要,所以近年來數據治理的論文通常會佔到 SIGMOD 收錄論文的 1\/5 到 1\/4,全世界有很多公司,以及一些學術機構也在做這方面的研究。未來的趨勢實際上是向着更加豐富的應用,以及融入 AI、擁抱 AI 等方向發展。此外一個值得關注的方向是,如何利用 GPU、NVM、RDMA 等新硬件提升數據庫的效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"唐博:"},{"type":"text","text":"2007 年,SIGMOD 第一次在中國舉行,時隔 14 年,SIGMOD 又回到了中國。過去的 14 年 SIGMOD 和中國數據庫界都發生了什麼變化? 世界數據庫領域又有哪些變化?這是我一直在思考的問題。將 2007 年 SIGMOD 的 Call for paper 與 2021 年 SIGMOD 的 Call for paper 相對比,有個明顯的變化——在以前,通常大家都會關注 Data management,但 2021 年除了 Data management 部分,還關注到了 Data Science, Engineering and Applications 這兩個部分。由此可以看出,整個數據庫界越來越關心 Data Science 或者 Data Application 的部分。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果再從 Topic 的角度看,從 2007 年到 2021 年,有些 Topic 是一直存在的,比如 Benchmarking and performance evaluation、Date mining and OLAP、Query processing。Transaction processing or TP、AP,這些一直存在的 Topic 是數據庫特別關注的領域。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/cd\/cdd99d6e99d58fe4d8e8cdaa57b32916.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"與此同時,2021 年出現了很多新的技術熱點,比如 Cowdsourcing,Data Visualization,Data Systems and Management for Machine Learning,Machine Learning for Data Management and Data Systems,Distributed and Parallel Databases 以及 Scientific Databases 等,這些都是新出現的技術。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外,也有部分已經過時的技術被替代,比如說 Peer-to-peer and networked data management, Personalized information systems,這些技術現在已經很少有人關注了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"晏瀟:"},{"type":"text","text":"我提供一個觀察和預測以後數據庫發展的思路,就是從應用和工具這兩方面去看數據庫技術的演化。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"從應用的角度看,首先,數據庫在各個領域得到越來越多的應用,尤其是在數據整合或者機器學習方面,在今年的 SIGMOD 上我們也可以看到很多關於 DB for Machine Learning 和 Data Infrastructure 等方面的成果,這意味着整個數據庫的外延已經被拓寬到更加豐富的應用上。其次,隨着數據規模的不斷增加,數據庫中的效率和分佈式問題也得到越來越多的重視。再者,越來越多的企業選擇把數據庫部署到雲上,雲數據庫成爲了大家關注的焦點。像資源彈性、數據庫自動配置、對特定業務的優化,這些都是本屆 SIGMOD 的熱門話題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"從工具的角度看,最近出現的硬件,比如 SSD、NVM、FPGA、GPU、RDMA 等,這些在今年的 SIGMOD 上都備受關注。此外,還有一個特別重要的工具,就是 Machine Lerning。數據庫中的查詢處理、資源配置等關鍵步驟都有很多參數需要配置,Machine Lerning 可以作爲數據庫管理和配置的工具。因此,Machine Lerning 得到越來越多的認可和重視。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我認爲目前數據領域的研究熱點,大多是由應用和工具兩股力量聯合推動的,這兩股力量也會持續催生出新的研究熱點。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"李海翔:"},{"type":"text","text":"我想介紹一下騰訊近年來在數據庫技術發展以及在學術界所做的基礎研究工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"騰訊數據庫的技術發展分爲 4 個階段。2000 年,我們使用了開源的數據庫;隨着社交增值業務的爆發增長,當時業界的開源產品包括國外的商業數據庫產品,都無法滿足我們的需求,2007 年,我們開始進入自研階段,做一個像 NoSQL 這樣的系統,解決高併發、金融級場景下系統面臨的可用性問題,即打造了 7*24 小時高可用、高性能彈性擴展能力;2012 年,隨着騰訊業務進一步發展,騰訊進入第三個階段,即開源定製和自研,打造一個通用型的分佈式數據庫產品。TDSQL 從 2014 年的時候對外已經在微衆銀行核心系統上使用,並且逐步推廣到更多的銀行、保險、互聯網、電商等行業企業,得到了更廣泛的使用和場景驗證。之後騰訊又進入了一個新的階段,這個新的階段就是深度開源定製 + 完全自研。直至 2017 年騰訊數據庫開始重點投入基礎技術研究,來從基礎理論層面出發,佈局前沿數據庫技術創新突破。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"回看騰訊數據庫創立的過程,騰訊創立的早期,爲了高效支持社交業務快速增長的需求,使用開源數據庫去搭建數據庫應用。當時最流行的是集中式的 Oracle。但是面對互聯網的海量數據業務,Oracle 在性能、擴展性方面遠遠無法滿足騰訊這種互聯網公司的需求。實際上隨着騰訊業務的技術發展,當時行業上包括開源、國外數據庫產品等的技術邊界日益顯現,逐漸都無法滿足我們的要求。互聯網業務,要求數據庫要具有很好的連續性,即高可用性,從而保障客戶的體驗。因此對數據庫的自動故障恢復能力,7×24 小時的容災能力有非常高的要求。其次,對於增值業務這種涉及了資金的業務不允許有一分一毫的差異,對於數據庫的高一致、高可靠性有着非常高的標準和要求。在這種背景下騰訊開始圍繞着金融級的高可用、高一致性以及彈性擴展等數據庫基礎能力,構造應用於雲計算、互聯網這種海量場景的金融級分佈式數據庫技術。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2014 年,騰訊數據庫遇到了發展的重要契機,支持面向普惠的微衆銀行的構建。普惠,意味着成本要低。如何把內部使用的 TDSQL, 應用到銀行去,這是非常巨大的挑戰,也是 TDSQL 發展的機會。在微衆銀行場景的磨練下,TDSQL 真正地變成了一款滿足金融級監管和業務要求的成熟標準化國產分佈式數據庫產品。不同於傳統的集中式數據庫,TDSQL 基於自研的互聯網分佈式技術架構,針對金融以及政企行業連接交易場景提供成本低,高可靠、高可用、高彈性的數據庫服務,爲金融行業“去 IOE”提供了切實可行的解決方案。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在微衆銀行得到應用後,TDSQL 被部署上騰訊雲,開始面向全行業開放。我們開始意識到,在雲計算時代分佈式架構轉型是一種必然趨勢,"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/article\/q8wiOH6dTajCrGKfvQx6","title":"xxx","type":null},"content":[{"type":"text","text":"TDSQL 在微衆銀行的成功實踐"}]},{"type":"text","text":",必然可以幫助更多的金融政企客戶實現低成本、高可用的“去 IOE”改革。事實證明,TDSQL 突破性幫助用戶實現了銀行傳統核心系統的數據庫國產化。比如幫助平安銀行客戶實現行業首例大機下移,這是金融數據庫國產化替換的里程碑事件。但是在這個階段騰訊的 TDSQL 數據庫一直在思考的是,替換就是我們的終極目標嗎?我想肯定不是的,因爲技術一直在發展。對我們廠商來講,分佈式數據庫的產業化是企業沒有走過的路,而技術與場景都在不斷演變而前進的,這更加充滿了不確定性。舉個例子,騰訊 TDSQL 在全國第七次人口普查工作時就用到了 OLTP 以及 OLAP 這兩個融合引擎的能力,這就我們此前一直在研發的 HTAP 混合架構。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"技術和場景經過這樣相互促進,催生出一種創新的力量,讓 TDSQL 得到巨大的鍛鍊。我想未來這樣的機會還有很多,比如 AI 和數據庫的融合,在數據庫中如何實現智能運維、自動化調優等等能力,這些都是新的挑戰。因此我們必須要立足於工業應用的基礎,來看基礎理論創新,去做更多創新性的工作,從追趕到實現超越,推動產業不斷升級。近幾年騰訊也在數據庫基礎技術方面投入了很多,也有了一些比較好的產出,並在 CCF 推薦的 A 類頂會頂刊發表的一些論文。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"從 SIGMOD 論文看數據庫技術熱潮"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"趙展浩:"},{"type":"text","text":"可以看到這十多年來數據庫行業確實發生了很多變化,包括 AI+DB、新硬件、分佈式數據庫的發展等都是近年來關注度很高的領域。接下來,請各位老師點評一些專業領域內的論文技術,從專業的方向角度分析某一具體領域的技術發展。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"秦建斌:"},{"type":"text","text":"先看一點背景,2007 年 SIGMOD 第一次在中國北京舉辦,當時論文接收率僅爲 14.6%;時隔了 14 年,今年第二次在中國舉辦,今年工程型與研究型論文接收率都有所提高。其實這背後是 SIGMOD 代表的數據管理技術本身的一些變化,隨着雲計算、大數據、智能計算等技術演進,作爲底層技術,數據庫從傳統的只關注 Management Of Data 開始向 Data Science 還有 Data Engineering 方面進行了拓展。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"而從我個人研究領域出發,回國以後我的研究方向主要是數據治理。在今年的 SIGMOD 論文中大概有接近 1\/4 的是圍繞數據治理方面的。數據庫系統在做數據管理之後,數據已經被存下來。這些存下來的數據,要應用到後面的數據分析過程。因此數據的有效性、可靠性就十分關鍵。大概二三十年前,就已經有人在研究這方面的內容,那時候偏理論化一點。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這幾年我們可以感覺到數據庫領域在數據治理方面更偏向於解決系統運行過程中遇到的實際問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一個問題叫做自動化配置,這是數據治理系統一個很重要的問題。在數據治理系統架設之後,由於功能非常強大,有上百個參數和配置供我們去選擇。遇到這種實際的問題時候,自動化配置是非常關鍵的。在一個新的數據環境下,如果沒有一個很好的配置,可能跑起來根本就達不到預期的效果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二個是複雜約束條件。基於傳統邏輯延伸過來的簡單約束條件,無法表達現實生活中一些比較複雜的情況,所以像 FD、CFD、Deny constriant 這種複雜的約束條件就出現了。這次大會也有關於複雜的約束條件的論文出現。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三個隱私計算。隱私計算實際上是這十年發展比較快的領域。自從 2007、2008 年有差分隱私的論文以來,數據庫一直在關注差分隱私怎麼用在數據庫裏面。因爲在數據治理的過程中也需要關注隱私會不會被泄露。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第四個是數據剖析。近幾年我們在做數據治理項目的時候發現,用戶希望知道數據裏面的問題,他們希望拿到數據後,你可以快速地告訴他們,這個數據裏面正確率有多少,不一致性有多強。他們更希望看到做宏觀上統計性的數據,以及看到你剖析的統計意義上的數據質量問題,指出質量統計值的變化和提升。所以數據剖析也是很重要的。其實這是一個蛋生雞還是雞生蛋的問題,你有一個很好的辦法來判斷數據哪裏有質量問題你才能更好地剖析,但如果你沒有很好的剖析方法,你也不知道數據的質量問題在哪。近幾年有些研究工作在打破這樣的死循環,提出了一些比較通用的數據質量剖析方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第五個是數據探索,利用可視化工具來對大規模的數據進行有效的探索,從而發現需要的數據或者數據中的問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第六個是 Outlier。Outlier,是我們真正做數據治理的時候會遇到一個比較常見的問題,今年好幾篇論文也在做這方面的研究。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第七個問題是 Incomplete 數據。在做數據治理的時候,包括做實體匹配、實體消歧的時候,常常我們拿到的數據是不完整,有很多空的數據,這就會帶來不同的語義。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最後一個是數據擴增。數據擴增是近年來數據庫和 AI 領域結合的產物。數據庫數據的擴增它一方面是爲了來更好地利用標記好的數據,標記好的數據可以擴展到更多沒有標記好的數據。另外一方面利用數據庫聚類,還有 AI 的方法來把正確的或者說質量比較高的數據,來擴增出質量比較差的數據用於做 training。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"唐博:"},{"type":"text","text":"我來講一下我關注的系統方面的幾個工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一個工作就是 Shared Query Execution。其實 Shared Query Execution 是 Core DB 裏面大家比較關注的問題。我記得最早看到 Shared Execution 的文章是在 2014 年,ETH 團隊做的一個 Shared computing。他們這篇 Paper Focus 是在 Time Slackness。我們如果有一些其他新的場景或者新的業務,Shared Execution 應該是一個很 promising 的方向,能夠給我們 Insights 或者能夠給我們 guideline, 去 implement 一個 new 或者 nova 的 Techniques,去加速我們現有的 Query possessing。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另外一個我比較關心的問題就是 Cardinality Estimation。這個工作是 NTU Gao Cong 他們團隊的。NTU 的這個工作其實是在提高 Cardinality Estimation 的準確度。這個背景很簡單,就是我們要做查詢優化器的提升或者 Cardinality Estimation 的提升。傳統的辦法是用 histogram 得到查詢的 selectivity,Cardinality Estimation。現在因爲 ML For DB 的火熱,就有很多論文出現了,比如說 VLDB2020,就有兩篇論文,通過 Learn from Data 去提高 Cardinality Estimation 的準確度。基於這一點他們從 Data 本身出發,去挖掘 Data 的信息,去 Learn from Data,然後去做 Query 的 Cardinality Estimation,這是一個方向。另外一個方向是從 Query 出發,在 Learn 已有 Workload 的基礎上,再去做 prediction。其實很久之前的 multidimensional workload-aware histogram,就是通過類似的 Workload-aware 機制去建立 Histogram 的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最後是 EDA(Exploratory Data Analysis)。Insight exploration 是一個很傳統 OLAP 的工作。Auto Insight,是指自動挖掘隱藏在數據裏面有價值的部分——相當於通過幾個步驟的工作,把 Multi-dimensional 的中間結果 cache 起來,然後利用 Query cache 實現 Data Pattern Mining,在 Data Pattern Mining 之後實現 Meta Insight Mining,在 Meta Insight Mining 完成後把結果 Ranking 結果返回給用戶。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我關注的其他 Paper 是關於 System 或者 core Database 的。第一篇我感興趣的論文 Scan in MVCC Databases, 就是 Query Optimization 的一個典範。從我的角度來講,在 Query Optimization 領域有很多工作可以探索,但我們現有的這些工作是不是真的能應用到實際的 Database System 上,能有多大的性能增益,查詢處理時間是否會因爲 ML 技術的引入而縮小?到現在爲止我們還沒看到一個真的 System 加入了 ML 的 Techniques 去做 Query Optimization,而能夠實現比原來的 Query scan 這些方法要好。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/a5\/08\/a5d41b76e47f6526923cf74d3d2f9608.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這有兩方面的問題:一方面 Database 是一個大的 System,想要 Integrated 進去並不容易。另一方面現有的 Research 其實是在爲後續的研究開闢方向,正向 Engineering 的 System 擴展,這個難度是顯而易見的,因此我覺得未來在這個方向上還有很多可以去做的事情。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外像 Query Processing Engine for Irregular Table Partitioning,這也是很有意思的研究。當你有一堆 Table 的 Partitioning 的時候如何做 Storage 和 Query Processing;如何去 utilize Bandwidth,從而提升 OLAP Workload 的 performance;以及在 Multi-GPU Architectures 裏面,如何 Scalable Join Processing,這些都是很有意思的問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"其次是 Instance-Optimized Data Layouts for Cloud Analytics Workloads,一個基於雲計算進行的研究。接下來的 Steering Query Optimizers,是 Query Optimizers 方面的研究。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"再者 Benchmarking the Efficiency of a Cloud Service,這個方向我也感興趣,用一個 Benchmark 來 evaluate 一個 System 到底好不好或者它在哪些情況下好,到現在爲止行業尚未產生非常好的方法,能夠實現 Benchmarking the Cloud Service。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最後是 Cloud-Native Storage,我們都知道,在 Cloud-Native 的 Database System 裏有很多新的挑戰,比如說進行資源調度,計算和存儲分離之後整個存儲層的資源調度是一個很大的問題,以及如何實現具備優秀 Storage 的 System,這些都是具有挑戰性的事情。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"晏瀟:"},{"type":"text","text":"我主要是跟大家交流一下 Sketch 和 LSH 結合這個領域的最新進展。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"LSH 和 Sketch 是一個歷史悠久的研究領域,LSH 是一種 Sublinear time 的相似性檢索算法,基本思路是建立 Hash table,能夠保證相似的對象被 hash 到同一個 bucket 的概率更高。這個基礎理論,早在 1998 年被 Indyk 提出,後面慢慢發展出了 E2LSH(對於 P-norm),SRP(對於 Cosine similarly)等不同相似度量的哈希函數。在 Query Processing 這方面,研究建好 index 之後,如何提高查詢處理效率,代表性的工作有 Multi-Probe LSH、LSB-Tree 等。Bloom filter 是一個能夠做 set membership test 的數據結構,它建立一個 binary array,通過對 entry 進行哈希,就能判斷一個它是否屬於一個集合。還有 Count-min Sketch 或者 Count Sketch,用於 frequency estimation,即估計一個集合裏面的 entry 出現的次數,也在 2005 年被就被提出來了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"可以看出 LSH 和 Sketch 是一個研究歷史非常悠久的領域。因爲它們能夠實現數據的高效處理,也是 SIGMOD 中備受重視的領域。在今年 SIGMOD 的 Keynote 中,李建中老師指出,隨着數據量的爆發式增長,爲未來對高效數據處理的需求將更爲迫切。以下我將結合今年 SIGMOD 的文章,講一講在 LSH 和 Sketch 領域最近的新應用和研究發展。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一個用 LSH 去做異常檢測。每個記錄都是高維向量,如果它是一個正常數據,它應該是離大家都比較近;如果是個 Outlier,它應該離大家都比較遠。但如果要對整個數據集都計算距離,那麼複雜度很高。這種場景下,我們可以用一個簡單的方式來進行:建一個 LSH Counter,在 LSH Hash table 裏,我們不存 Item,我們只存每個 bucket 裏面有多少 item。一個查詢到達之後,我們看它 hash 到哪些 bucket,然後將這些 bucket 中的 item 數求和,如果和的數值比較少,它就可能是個 Anomaly。這個方法能得到證一些理論上的保證,效果比較好。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二個工作是用 Count Sketch 進行機器學習模型的壓縮。一些線性模型,比如說 SVM 和 Logistic Regression, 當 feature 維度很高時,模型會很大。比如如果我們利用文本中的 skip gram 來構建 feature,Model 可能包含 million 或者幾十個 Million 的 Features 級的參數,這樣存儲或者在網絡上傳輸都很不方便。這裏介紹一個斯坦福大學的研究:如果有一個特別高維的分類器,這個高維的分類器權重一定是稀疏的,在這個稀疏的權重寫入一個 Count-min Sketch——因爲 Count-min Sketch 用於進行 Heavy Hitter 檢測,保證比較大的 entry 受到干擾比較小,所以它也證明了在一定條件下用 Count-min Sketch 來學習 classifier 和精確的 classifier,也是有一個 error bound。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最後一個工作是用 LSH 實現圖壓縮。因爲 Sketch 和 LSH 能夠對大數據進行高效的處理,所以一直是數據庫領域研究的熱點,我檢索了一下,發現 SIGMOD 上 180 篇文章中大概有 14 篇是研究這個方向。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"總的來說,Sketch 和 LSH 大概有兩個研究方向,第一個研究方向是把 Sketch 和 LSH 和更多的應用相結合,比如說 Kernel Density Estimation,分佈式機器學中的梯度壓縮,機器學習中的 privacy 等,加速神經網絡的訓練和推理,互信息的估計。當然也有對新的度量,設計新的 LSH 函數,比如說 LSH for string edit distance,LSH for earth move distance。另外,最近兩年用機器學習來增強 Index 這個方向也有很多研究工作。作爲一種從數據中學習規律的方法,用機器學習來增強 Sketch、LSH 也是很自然的事情,比如說增強 Bloom filter,增強 Count-min Sketch,還有增強的 LSH。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近幾年明顯的數據庫技術趨勢之一,是把 Sketch 和 LSH 用到大規模機器學習任務或者數據庫任務裏面,或者利用機器學習對 Sketch 和 LSH 進行增強。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/06\/06e320084431e11a519f10f6d1526144.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"李海翔:"},{"type":"text","text":"我先分享下騰訊數據庫在數據一致性方面的研究。本屆 SIGMOD,我們發表了一篇 "},{"type":"text","marks":[{"type":"strong"}],"text":"Sigmod Paper SRC track,就是在討論數據一致性問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"高性能分佈式事務下的事務一致、分佈式一致,一直是業界難題。我們研究出的 TDSQL 多級一致性技術,是在遵循了 ACID 特性的同時,使得事務處理技術符合 CAP 原理,並在理論層面相較“嚴格可串行化”技術做了擴展,並進一步提出了多種強一致性的完整技術。在實現分佈式數據庫“雙一致性”(事務一致、分佈式一致)的同時,極大地提高了處理效率。各類測試顯示,該技術性能是同類產品 Spaneer 性能的 4+ 倍、CorchroachDB 的 2+ 倍,而高併發場景下是 Greenplum 性能的 3+ 倍。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/33\/33dcbc4759e183f603699fca571b16f1.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"下面我將重點分享另一個事情,即數據異常。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"數據異常目前並沒有一個通用的定義。我們從數據異常、變量和併發事務之間的關係入手,把三者統一在一個模型下,對數據異常加以形式化的定義,這時我們發現數據異常其實有無窮多個。我們對數據異常進行了特徵研究,然後用環科學得表達了所有的數據異常。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/28\/28cb8b3b7fef03e1e5e4f7c493ea4459.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外,我們也去探索了數據異常和數據一致性之間的關係。兩者的關係可以用形象的定義來描述:“一致性等於無數據異常”,只要沒有數據異常那麼就符合數據一致性;反之,“不一致就等於有數據異常”。我們用數據異常去嘗試定義了數據的一致性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"同時,我們還研究了數據異常和隔離級別之間的關係。當我們在數據異常分類的基礎上,嘗試去重新定義隔離級別時,我們發現隔離級別的定義似乎是很靈活的,它可以定義出不同級別或者不同粒度的一致性。我們可以分成多個層次,去定義成不同粒度的隔離級別。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/fa\/fad4afcc80404903abb8f7f5189b1b2b.webp","alt":"圖片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"總的來說,騰訊在整個事務處理領域所做的基本工作,可以概括爲:我們希望提供一個相關的研究框架(Tencent Transaction Processing Testbed System,簡稱 3TS),在這個系統裏做一些以事務處理爲核心的工作,或者和其他技術相結合來做一些具體的研究。比如事務處理怎麼和可用性相結合,怎麼和可靠性相結合,怎麼和安全相結合。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"數據庫發展下半場,專家們都在關注哪些方向?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"趙展浩:"},{"type":"text","text":"這個環節想請老師們談談,下個階段有什麼課題或技術方向值得我們持續關注?"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"秦建斌:"},{"type":"text","text":"目前我們正在關注包括數據治理方面等。以前很多做數據庫系統的朋友,比較關注的是數據庫系統跑得快或慢,但實際上我更想關注這個數據生成的過程——從數據的最早創立到後面處理,直至最後整個生命週期的管理的過程。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"目前,數據庫做數據治理已經有很多工具,但怎麼能發揮發真正的價值,這是我們在關注的工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"唐博:關於未來,我覺得不僅要關注數據跑得快不快,還需要關注數據到底好不好,這是整個數據庫系統的閉環,即是從底層數據質量保證上層的應用。同時,未來有以下幾個大方向值得關注:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第一,Cloud-Native Database System 領域,現在看來是處於百花齊放的狀態,但尚缺乏一個 dominate 的因素,不管是企業,還是說學術界,肯定會有越來越多的研究成果,越來越多的創新技術出現,使得 Cloud-Native Database System 慢慢得到大家的認可。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第二,我們現在所有的東西都是基於現有的計算硬件,比如說英特爾的芯片,或者是 GPU,來對 Database System 進行優化。但是有越來越多業界人士認爲,可以探索推動 DB 和 OS 的結合。因爲我們知道很多業務場景,機器壓根就是在做 DB 的事情,跟其他 OS 功能關係不大。是否可以針對 DB 的基本操作,設計專門的 OS 呢?這個方向會遇到很多挑戰,也會是未來大家越來越會關注到的地方。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三,查詢引擎的優化。AI 的到來一定會帶來查詢引擎的改變,不管是 AI 輔助 DB,還是 AI driven DB,這部分會有更多的可能。另外,這也會讓雲和設備出現新的場景。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"晏瀟:"},{"type":"text","text":"數據庫主要是應用驅動的領域,最近幾年圖數據庫異軍突起,出現了 "},{"type":"link","attrs":{"href":"https:\/\/mp.weixin.qq.com\/s?__biz=MzAxNDU2MTU5MA==&mid=2649970708&idx=1&sn=10ee14a2546f8f3e15b3c1353057b3b8&chksm=8396804db4e1095bce8f1dca122c03c46266a3b218e3df671a83ac3d58afaf21905e55058e51&scene=27#wechat_redirect","title":"xxx","type":null},"content":[{"type":"text","text":"TigerGraph"}]},{"type":"text","text":",Titan,JanusGraph 等系統。因爲有很多查詢,需要做比較複雜的關聯分析,而在圖上做 pattern matching,相比於 SQL 的 join 在複雜關係分析能力有很多的優勢。因此圖數據的發展值得持續關注。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"另外是先進硬件方面,先進硬件爲 Query 的查詢和優化都帶來了很多不同的挑戰。像 GPU 這種先進硬件帶來的查詢,機遇和挑戰是並存。現階段我們也在用 GPU 做向量空間、Top-K 查詢的加速。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"第三個方向是基於機器學習的 index 和查詢,我比較關注相似性檢索和 LSH,現階段我們也在研究用機器學習來增強 index 和檢索的工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"此外值得一提的是,從今年的 SIGMOD 來看,有一個特別明顯的趨勢,很有影響力的 Paper,單獨在學校做的已經越來越少,大多有影響力的 Paper 都是和業界合作的,比如說和谷歌、亞馬遜這些頂級公司合作。我認爲做 Reserch,想要有影響力,就要更多看向工業界,和工業界真實的需求和應用場景相結合。我覺得這在未來會是學術研究的新範式。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"李海翔:"},{"type":"text","text":"未來,騰訊還會長期致力於在數據庫的關鍵技術領域,比如事務處理、AI 智能化結合、查詢優化、數據治理等方面,持續投入研究。我們將會下沉到基礎理論層面開展更多深入研究,推動基礎研究與工程應用相結合,同時加強與業界、學術界的合作,把先進的技術成果引進來,讓研究成果更好地落地到實際應用中。"}]}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章