萬物皆可embedding,AI應用神器Milvus登頂數據庫頂會SIGMOD

Milvus 團隊期待能打通 embedding 空間的相關技術,比如中間層、中間層的神經網絡模型。落實到具體場景應用上,則期待看到綜合場景下搜索技術的突破,對不同模態的數據進行高效準確的關聯搜索。

身處萬物皆可 embedding 的 AI 時代,Milvus 團隊有什麼技術見解,研發工作遵循什麼方法,關於 AI 和數據庫這一交叉領域又有怎樣的思考?跟着這篇 AI 科技評論的專訪,咱們深入瞭解一下。


AI 科技評論報道

編輯 | 陳大鑫

想象一下,一位計算神經科學家正在引導數百隻小老鼠在迷宮運動,還用上了最新技術對實驗對象的神經元進行成像。小白鼠們沒兜幾圈,TB 級的視頻數據和大腦數據就產生了。

接下來,科學家還要把龐雜的圖像信息轉化成深度語義,計算數據之間的關係,做出關於行爲如何被大腦控制的假設,並進行下一輪的驗證工作。

不僅僅是科研領域,隨着科技的高速發展,智能城市、電子商務等跟民生相關的社會場景都需要進行海量動態數據的預處理。這個時候,就需要用到能夠梳理數據關係的通用型基礎設施。

在剛結束的數據管理國際頂會 ACM SIGMOD/PODS(Special Interest Group on Management of Data)上,一款從非結構化數據中挖掘隱式語義的神器——向量數據庫 Milvus,就因強大的底層功能而被評委會相中。


(論文鏈接:https://www.cs.purdue.edu/homes/csjgwang/pubs/SIGMOD21_Milvus.pdf)

Milvus 由創業公司 Zilliz 研發,是頂級開源基金會 Linux 基金會旗下 Al 子基金 LF Al的畢業項目,旨在降低非結構化數據搜索的應用門檻,並在不同部署環境下提供一致的使用體驗。
SIGMOD'21 評審委員對 Milvus 給予了極高評價:“此項研究成果突破性地實現了向量數據管理的通用系統設計,在滿足動態數據實時搜索的同時,也能滿足實際業務中多樣化的查詢需求。作爲一項開源技術,Milvus 被廣泛應用於人工智能前沿領域,其試驗性能大幅超越同類向量檢索系統,使得這篇論文極具啓發性和借鑑意義。”
能造神器者,必有相應心法,順應天時、由心造境。AI 科技評論採訪了負責此次論文工作的易小萌博士,一探 Milvus 團隊的武功究竟。

  天時:AI時代,萬物都在矩陣中


1、AI 科技評論:當初爲何想到要做 Milvus 項目?
Milvus 項目是2018年啓動的,當時我們觀察到兩個趨勢:
一方面,非結構化數據將成爲信息的主要載體。
另一方面,AI 模型將會是提取非結構化數據內在信息的關鍵計算手段。現在看起來,這兩方面趨勢已經越來越明顯了。
全世界每天有幾十萬 PB 的非結構化數據被產生出來,這些數據經過 AI 模型提取了豐富的信息(也就是人們常說的 embedding ),但卻沒有一個底層基礎軟件能夠有效管理和分析這些 embedding 數據。
AI 模型提取出的這些 embedding 都是向量化的表示,Milvus 所管理的數據都是向量,進行的運算也基本是向量和矩陣運算。我最喜歡的一個比喻是黑客帝國中的母體,本質是一個巨大的向量和矩陣的集合,作爲基座支撐上面各類形態的 AI。
2、AI 科技評論:Milvus 屬於數據庫和AI兩個領域的交叉工作,有遇到什麼新問題嗎?
數據庫和 AI 兩個領域都挺不好搞的。數據庫領域很多工作,比如一致性協議,屬於那種 'you know everything but nothing works'。AI 的話正好反過來,'everything works but nobody knows why'。我們在這個交叉領域就很不一樣了,'nothing works and nobody knows why'。
發這篇論文主要是想把我們在非結構化數據分析與搜索領域摸到的一些東西分享出來,也是想開個坑,拉更多學術界和業界的朋友一起到這個坑裏來探索,因爲這個領域很新也很重要。
3、AI 科技評論:Milvus 團隊正在結合 AI 做更深的探索,能否談談對於這個交叉領域的期待?
在我們團隊裏有一句話,萬物皆可 embedding。不過現在通過不同的 AI 模型所獲得的是一些相互獨立的 embedding 空間,是一系列信息孤島,這就好像 wikipedia 的每個詞條都是用一種不同的語言書寫的。給出每個詞條的語義解釋能夠幫助解決不少問題,但如果能將不同詞條的語義解釋關聯起來,將會產生巨大的應用價值。我們非常期待能打通這些 embedding 空間的相關技術,也許是一些中間層的 embedding 空間,也許是一些中間層的神經網絡模型。
落實到具體的場景應用上,我們期待看到綜合場景下搜索技術的突破。近幾年,隨着多模態學習技術的日益發展,同一事物在不同模態之間信息的關聯和互補關係得到了深入的研究。相比而言,目前的數據搜索模式相對單一,通常只能較好的解決單一模態下的數據搜索問題,而如何對不同模態的數據進行高效準確的關聯搜索仍然是一個開放性的問題。解決這一問題需要在算法、模型和系統層面上進行深入的探索和分析。

  心法:開源,做有意義的系統工作


4、AI 科技評論:Milvus 團隊多位骨幹都有學術界的經歷,爲何會來到一個 start-up?
包括我在內的多位研發團隊成員都出自華中科技大學金海教授的實驗室,我在讀博期間對金海教授講的“做有意義的系統工作”印象特別深刻。有意義的系統工作在學術界或工業界其實沒有很明顯的邊界,同時工業界近年來在研究領域的優勢愈發明顯,依靠規模與場景兩個高地構建了很多優秀的系統,比如谷歌的 BigTable、GFS、MapReduce。
早些年,很多領域都是學術界走在前面,但是在計算機系統領域有很多反轉的現象,不少經典的方向都是工業界先開坑,然後學術界在這個基礎上不斷完善。在學校的時候老師常常對我們說,讓自己快速成長最好的辦法就是要跳出自己的“舒適區”。以我爲例,逐漸熟悉了高校裏面做研究的方式之後,就希望能夠到企業對自己進行新一輪的錘鍊。
5、AI 科技評論:能否展開談談“做有意義的系統工作”?
我在學校的研究方向比較偏理論,研究的內容通常是在某些特定場景,在一定的假設條件下如何優雅地解決一個問題。在企業裏面做事天然會從實際意義出發,相比優雅,我們的解決方法更需要的是健壯。所以,我們所說的“做有意義的系統工作”,並不是指從 paper 產生 paper,而是從實際的系統中抽象出來一些問題,包括系統設計的框架、具體的優化方案、最終目標,解決之後又重新應用回系統中去。
讀博那會兒,覺得最缺的是好問題。現在做 Milvus 這樣的開源基礎軟件,研究和研發同時被用戶和社區推着快速迭代,值得解決的問題太多了。很多時候,要抑制自己做研究的衝動,把資源投到項目的快速迭代上面去,這樣才能維護好問題的源泉,也就是用戶和社區。從這個角度看,我覺得開源社區在未來一定會和學術界有更多類似的合作實踐。
6、AI 科技評論:開源社區和研究課題之間具體是怎樣的關係?
開源這套理念經過了幾波發展,從早期的 “半宗教” 性質到現在,融入了很多商業上的探索。最直接的就是開源之後,與用戶和技術人員的接觸面積大幅提高。好的項目,從某種層面看,對好的問題處於壟斷地位。開源有助於把技術和場景兩方面的因素更加有效地糅合起來,不斷碰撞,產生化學反應。開源社區和學術界,主要也是圍繞這些 “好的問題”進行互補。
目前,我們在思考如何更高效地開源 “問題”。在社區的活動形式上也在做新的嘗試,希望把更多 “好的問題” 暴露給學術界。
7、AI 科技評論:總結一下,Milvus 技術團隊做項目的路徑和方法是什麼?
首先,要充分了解過去。幾乎所有的創新性工作都是基於前人的基礎完成的,就算是在比較新的領域裏面也是一樣。我們需要對現有技術有充分的瞭解,在此基礎之上審視我們所遇到的問題,然後再尋找可能的解決方案。
然後,需要有途徑去看未來。總體而言,研究類工作是面向未來的。未來場景是什麼樣子、上層應用對底層系統有哪些需求、痛點和難點是什麼,這些都是需要仔細探討認真推斷的。要做到這一點,我們認爲最好的方法就是探索場景。只有從深度和廣度兩個方面擴展對場景的理解,才能清楚各個場景下對系統能力最普遍最迫切的需求是什麼,從而以場景爲約束去塑造系統。
最後,不要造了錘子找釘子。開發基礎軟件有時候就像是造錘子。如果等錘子造好了之後再去根據錘子的形狀去找能敲的釘子,也許就會發現其實有很多的釘子不太適合用這個錘子來敲。這個時候再想要調整錘子的形狀就比較困難了。我們應該避免爲了做系統而做系統的模式,而應該看準實際場景中的問題。只有嘗試解決有價值的問題,才能產生有價值的系統工作。


Github @Milvus-io|CSDN @Zilliz Planet|Bilibili @Zilliz-Planet

Zilliz 以重新定義數據科學爲願景,致力於打造一家全球領先的開源技術創新公司,並通過開源和雲原生解決方案爲企業解鎖非結構化數據的隱藏價值。  

Zilliz 構建了 Milvus 向量數據庫,以加快下一代數據平臺的發展。Milvus 目前是 LF AI & Data 基金會的畢業項目,能夠管理大量非結構化數據集。我們的技術在新藥發現、計算機視覺、推薦引擎、聊天機器人等方面具有廣泛的應用。

本文分享自微信公衆號 - ZILLIZ(Zilliztech)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章