DeepDive 簡介

deepdive是由斯坦福大學InfoLab實驗室開發的一個開源知識抽取系統。它通過弱監督學習,從非結構化的文本中抽取結構化的關係數據 。是目前人工智能學習領域的一個熱門項目。原文見 http://deepdive.stanford.edu/

DeepDive 用來做什麼?

DeepDive是一個從暗數據(dark data)中提取價值的系統。與暗物質(dark matter)一樣,暗數據是隱藏在文本、表格、圖形和圖像中的大量數據,缺乏結構,因此基本上無法通過現有軟件處理。DeepDive通過從非結構化信息(文本文檔)創建結構化數據(SQL表)並將這些數據與現有的結構化數據庫集成,幫助揭示暗數據。DeepDive用於提取實體之間複雜的關係,並對涉及這些實體的事實進行推斷。DeepDive幫助用戶處理各種各樣的暗數據,並將結果放入數據庫。有了數據庫中的數據,人們可以使用各種標準工具來使用結構化數據;例如,可視化工具(如Tableau)或分析工具(如Excel)。

DeepDive是什麼?

DeepDive是一種新型的數據管理系統,它能夠在單個系統中解決提取、集成和預測問題,使用戶能夠快速構建複雜的端到端數據管道,如暗數據BI(Business Intelligence)系統。通過允許用戶端到端構建他們的系統,DeepDive允許用戶專注於他們的系統中最直接提高應用程序質量的部分。相比之下,以前的基於管道的系統要求開發人員構建提取器、集成代碼和其他組件,而不清楚其更改如何提高數據產品的質量。這個簡單的洞察是深海系統如何在更短的時間內產生更高質量數據的關鍵。從古生物學到基因組學再到人口販賣等許多領域,沒有機器學習專業知識的用戶都使用基於深海的系統;請參見我們的示例。

DeepDive是一個訓練系統,使用機器學習來處理各種形式的噪音和不精確性。DeepDive的目的是讓用戶通過Mindtagger界面的低級反饋和通過規則的豐富、結構化的領域知識來輕鬆地訓練系統。DeepDive希望能夠幫助那些沒有機器學習專業知識的專家。深海潛水的關鍵技術創新之一是能夠大規模解決統計推斷問題。

DeepDive與傳統系統有幾個不同之處:

  • DeepDive要求開發人員考慮功能而不是算法。相比之下,其他機器學習系統要求開發人員考慮使用哪種聚類算法、哪種分類算法等。在DeepDive的基於聯合推理的方法中,用戶只指定必要的信號或特徵。
  • DeepDive可以獲得高質量:在科學領域提取複雜知識和在實體關係提取競賽中獲勝方面,古深海系統比人類志願者具有更高的質量。
  • DeepDive意識到數據常常是嘈雜和不精確的:名字拼寫錯誤,自然語言模棱兩可,人類也會犯錯。考慮到這種不精確性,DeepDive計算它所做的每一個斷言的校準概率。例如,如果深海潛水產生一個概率爲0.9的事實,那麼這個事實有90%可能是真的。
  • DeepDive能夠使用來自各種來源的大量數據。使用DeepDive構建的應用程序已經從數以百萬計的文檔、web頁面、pdf、表和圖中提取了數據。
  • DeepDive允許開發人員使用他們對給定域的知識,通過編寫通知推理(學習)過程的簡單規則來提高結果的質量。深度潛水還可以考慮用戶對預測正確性的反饋,以改進預測。
  • DeepDive能夠利用這些數據進行“遠距離”學習。相比之下,大多數機器學習系統需要對每個預測進行冗長的訓練。事實上,許多深海應用,特別是在早期階段,根本不需要傳統的訓練數據!
  • DeepDive的祕密是一個可伸縮的、高性能的推理和學習引擎。在過去的幾年裏,我們一直在努力使底層算法運行得越快越好。本項目中率先採用的技術是商業和開放源碼工具的一部分,包括MADlib、Impala(Oracle的產品)和低級技術,如Hogwild!。他們也被包括在微軟的Adam和其他主要的網絡公司中。

DeepDive 用於哪些方面?

我們在showcase頁面中描述了深海應用程序的示例。

  • MEMEX-支持打擊人口販賣,這是最近在福布斯上出現,現在被執法機構積極使用。
  • PaleoDeepDive-一個比人類志願者質量更高的古生物學家知識庫。
  • GeoDeepDive -從地質學雜誌文章中提取暗數據。
  • Wisci-用結構化數據豐富維基百科。
    這些示例在showcase頁面中進行了描述。這些示例的完整代碼可在DeepDive(如果允許)中獲得。DeepDive目前在其他領域的合作者甚至更多。

誰應該使用DeepDive?

使用者應該熟悉DDlog或SQL、使用關係數據庫和Python來構建DeepDive應用程序或將DeepDive與其他工具集成。想要修改和改進DeepDive的開發者必須具備DeepDive開發者指南中提到的基本背景知識。

誰開發了DeepDive?

DeepDive是由斯坦福大學Christopher Ré 領導的項目。目前的組員包括:Michael Cafarella, Xiao Cheng, Raphael Hoffman, Dan Iter, Thomas Palomares, Alex Ratner, Theodoros Rekatsinas, Zifei Shan, Jaeho Shin, Feiran Wang, Sen Wu, and Ce Zhang。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章