復旦 🪐 Zilliz 夢幻聯動!快準狠的數據挖掘分析,用了這些方法

「交互式數據探索系統中,『快』與『準』的需求如何做好平衡?」

「小白用戶想做數據挖掘,分析方法不會選,怎麼辦?」

「數據檢索需要遍歷每一個數據,如何提升檢索性能?」

上週五,Z 寶參加了一場乾貨滿滿的 Tech Talk,復旦大學計算機科學技術學院的荊一楠副教 授和張凱副教授來到 Zilliz,與 Z 星的工程師們分享數據庫領域前沿的研究方向。一起來看一看我們的思想火花吧:


從“語言級”、“工具級”到“智能級”,AI 技術讓數據分析更“聰明”

荊一楠從哈勃望遠鏡談起,引入數據探索的概念,介紹了團隊在數據自動分析、數據可視化方向做的一系列工作,分享了團隊研發的 智能大數據探索系統—— DataHubble
荊一楠指出,交互式數據探索系統需要做到“快狠準”
“讓用戶輕鬆地做選擇”是荊一楠團隊研發的初心。爲了讓系統實現更智能的分析方法推薦,DataHubble 首創了一種基於協同過濾知識圖譜的分析模型推薦方法(ModelAdvisor),與現有的 AutoML 方法相比,ModelAdvisor 引入了專家知識,大大增強了分析方法推薦的準確度,同步提升推薦可解釋性。
DataHubble 架構圖
除了分析方法推薦,DataHubble 在用戶意圖理解、精細化樣本、敏捷分析、AQP on Text 等方面也取得了關鍵成果:
智能數據分析,融合了人工智能能力,可實現增強式的智能數據分析;自然語言交互,提升了大數據分析系統的易用性和分析效率;可視化的推薦,從根本上減少了人和數據之間的 gap。

兩種方法左右橫跳?BinDex 用一種方法把數據掃描的性能提升了 1.6 倍

張凱從現有的數據檢索痛點入手,分享了 BinDex 數據掃描方法
張凱分享 BinDex 原理
現有的數據檢索分爲索引掃描(Index scan)順序掃描(Sequential scan)兩種方式,這兩種方式各有優缺點:索引掃描通常採用 B+ 樹等索引結構進行掃描,僅會訪問滿足謂詞約束的數據,但是掃描過程會產生大量的隨機訪問,影響吞吐率;順序掃描依次訪問存儲介質,掃描吞吐量高,但需要遍歷所有數據。
爲了找到較優的方法,用戶在數據檢索前要預判成本。然而,成本估算不一定準確,用戶有時無法確定要使用哪種掃描方式。針對這個問題,張凱團隊嘗試用新的方法加速掃描過程。張凱團隊研發的 BinDex 方法吸取了索引掃描和順序掃描兩者的優點,只需要觸碰到滿足條件的數據,在不同選擇率(selectivity) 下都能達到比較好的性能。
BinDex 吸取了索引掃描和順序掃描兩方面的優點
如此強大的 BinDex 是如何實現的?張凱進一步介紹了 BinDex 的架構原理:BinDex 使用兩層索引,第一層 Filter Layer 實現近似查找,第二層 Refine Layer 針對性地修改少量錯誤數據。當用戶發出一個查詢請求,系統會先找到和所要結果最相近的查找,隨後更正並輸出正確答案。
有了 BinDex 掃描,用戶無需按傳統的方法“預判-選擇”,而是可以直接上手掃描。經測試,掃描速度至少提升了 1.6 倍。
BinDex 的實現原理
在未來,我們的科技樂園 Z 星會舉辦更多有趣、有用的技術沙龍。
讓我們一起對新技術永葆好奇,創造革新的數據科學平臺!
 點擊「閱讀原文」進入 Zilliz Blog 
 Z 寶與你,下期再見!

Github @Milvus-io|CSDN @Zilliz Planet|Bilibili @Zilliz-Planet
Zilliz 以重新定義數據科學爲願景,致力於打造一家全球領先的開源技術創新公司,並通過開源和雲原生解決方案爲企業解鎖非結構化數據的隱藏價值。
Zilliz 構建了 Milvus 向量數據庫,以加快下一代數據平臺的發展。Milvus 是 LF AI & Data 基金會的畢業項目,能夠管理大量非結構化數據集,在新藥發現、推薦引擎、聊天機器人等方面具有廣泛的應用。

本文分享自微信公衆號 - ZILLIZ(Zilliztech)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章