復旦 🪐 Zilliz 夢幻聯動！快準狠的數據挖掘分析，用了這些方法

原創

2021-09-08 21:31

「交互式數據探索系統中，『快』與『準』的需求如何做好平衡？」

「小白用戶想做數據挖掘，分析方法不會選，怎麼辦？」

「數據檢索需要遍歷每一個數據，如何提升檢索性能？」

上週五，Z 寶參加了一場乾貨滿滿的 Tech Talk，復旦大學計算機科學技術學院的荊一楠副教授和張凱副教授來到 Zilliz，與 Z 星的工程師們分享數據庫領域前沿的研究方向。一起來看一看我們的思想火花吧：

從“語言級”、“工具級”到“智能級”，AI 技術讓數據分析更“聰明”

荊一楠從哈勃望遠鏡談起，引入數據探索的概念，介紹了團隊在數據自動分析、數據可視化方向做的一系列工作，分享了團隊研發的 智能大數據探索系統—— DataHubble 。

荊一楠指出，交互式數據探索系統需要做到“快狠準”

“讓用戶輕鬆地做選擇”是荊一楠團隊研發的初心。爲了讓系統實現更智能的分析方法推薦，DataHubble 首創了一種基於協同過濾和知識圖譜的分析模型推薦方法（ModelAdvisor），與現有的 AutoML 方法相比，ModelAdvisor 引入了專家知識，大大增強了分析方法推薦的準確度，同步提升推薦可解釋性。

DataHubble 架構圖

除了分析方法推薦，DataHubble 在用戶意圖理解、精細化樣本、敏捷分析、AQP on Text 等方面也取得了關鍵成果：

智能數據分析，融合了人工智能能力，可實現增強式的智能數據分析；自然語言交互，提升了大數據分析系統的易用性和分析效率；可視化的推薦，從根本上減少了人和數據之間的 gap。

兩種方法左右橫跳？BinDex 用一種方法把數據掃描的性能提升了 1.6 倍

張凱從現有的數據檢索痛點入手，分享了 BinDex 數據掃描方法 。

張凱分享 BinDex 原理

現有的數據檢索分爲索引掃描（Index scan）和順序掃描（Sequential scan）兩種方式，這兩種方式各有優缺點：索引掃描通常採用 B+ 樹等索引結構進行掃描，僅會訪問滿足謂詞約束的數據，但是掃描過程會產生大量的隨機訪問，影響吞吐率；順序掃描依次訪問存儲介質，掃描吞吐量高，但需要遍歷所有數據。

爲了找到較優的方法，用戶在數據檢索前要預判成本。然而，成本估算不一定準確，用戶有時無法確定要使用哪種掃描方式。針對這個問題，張凱團隊嘗試用新的方法加速掃描過程。張凱團隊研發的 BinDex 方法吸取了索引掃描和順序掃描兩者的優點，只需要觸碰到滿足條件的數據，在不同選擇率（selectivity）下都能達到比較好的性能。

BinDex 吸取了索引掃描和順序掃描兩方面的優點

如此強大的 BinDex 是如何實現的？張凱進一步介紹了 BinDex 的架構原理：BinDex 使用兩層索引，第一層 Filter Layer 實現近似查找，第二層 Refine Layer 針對性地修改少量錯誤數據。當用戶發出一個查詢請求，系統會先找到和所要結果最相近的查找，隨後更正並輸出正確答案。

有了 BinDex 掃描，用戶無需按傳統的方法“預判-選擇”，而是可以直接上手掃描。經測試，掃描速度至少提升了 1.6 倍。

BinDex 的實現原理

在未來，我們的科技樂園 Z 星會舉辦更多有趣、有用的技術沙龍。

讓我們一起對新技術永葆好奇，創造革新的數據科學平臺！

點擊「閱讀原文」進入 Zilliz Blog
Z 寶與你，下期再見！

Github @Milvus-io|CSDN @Zilliz Planet|Bilibili @Zilliz-Planet

Zilliz 以重新定義數據科學爲願景，致力於打造一家全球領先的開源技術創新公司，並通過開源和雲原生解決方案爲企業解鎖非結構化數據的隱藏價值。

Zilliz 構建了 Milvus 向量數據庫，以加快下一代數據平臺的發展。Milvus 是 LF AI & Data 基金會的畢業項目，能夠管理大量非結構化數據集，在新藥發現、推薦引擎、聊天機器人等方面具有廣泛的應用。

本文分享自微信公衆號 - ZILLIZ（Zilliztech）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

復旦 🪐 Zilliz 夢幻聯動！快準狠的數據挖掘分析，用了這些方法

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

每天Get一個小技巧：用DolphinScheduler實現隔幾天調度

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

企業大模型如何成爲自己數據的“百科全書”？

AI 一鍵生成高清短視頻，視頻 UP 主們捲起來...

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結