麻省理工交互式數據科學系統Northstar:將複雜分析變得簡單快速、人人可用

InfoQ導讀: 相信讀者們在科幻電影中肯定沒少見過可觸控的空中全息 3D 技術,再加上人工智能,真是炫酷得不要不要的。這真是的幻想嗎?不,在研究人員的努力下,我們正一步一步走向未來。

多年來,麻省理工學院(MIT)和布朗大學的研究人員一直在開發一種交互式系統,讓用戶可以在任何觸摸屏上進行拖放並操縱數據,包括智能手機和交互式白板。現在,他們已經開發了一個工具,可以立即自動生成機器學習模型,對這些數據運行預測任務。

該系統允許非專業人員使用機器學習模型對醫學研究、銷售等進行預測。

在《鋼鐵俠》系列電影中,Tony Stark 使用全息計算機將三維數據投射到空氣中,用雙手操縱它們,並找到解決超級英雄麻煩的方法。同樣,麻省理工學院和布朗大學的研究人員現在開發了一套可在觸摸屏上運行的交互式數據分析系統,讓每個人,而不僅僅是像 Tony 那樣的億萬富翁技術天才,都能夠解決現實問題。

多年來,研究人員一直在開發一種名爲 Northstar 的交互式數據科學系統,該系統在雲端中運行,但它的界面支持任何觸摸屏設備,包括智能手機和大型交互式白板。用戶饋送系統數據集,並使用手指或數字筆在用戶友好的界面上操作、組合和提取功能,以發現趨勢和模式。

在 ACM SIGMOD 會議上發表的一篇論文中,研究人員詳細介紹了 Northstar 的一個新組件,稱爲 VDS,意爲“虛擬數據科學家”(virtual data scientist),它可以立即生成機器學習模型,以便在數據集上運行預測任務。例如,醫生可以使用該系統來幫助預測哪些患者更容易患上某些疾病,而企業主可能希望預測銷售額。如果使用交互式白板的話,每個人都可以實時協作。

其目的是,通過使複雜的分析變得簡單、快速和準確,從而實現數據科學的民主化。

“即使是不懂數據科學的咖啡店老闆,也應該能夠預測未來幾周的銷售額,從而計算出應該購買多少咖啡。”Tim Kraska 說,他是麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的電子工程與計算機科學副教授,也是新成立的數據系統和人工智能實驗室(Data System and AI Lab,DSAIL)的創始聯席主任。“在擁有數據科學家的公司中,數據科學家和非專家之間有很多反覆來回的溝通,所以我們也可以把他們帶到一個房間來一起進行分析。”

VDS 是基於一種日益流行的人工智能技術,稱爲自動機器學習(AutoML),這種技術讓缺乏數據科學知識背景的人們能夠訓練人工智能模型,使其根據他們的數據集進行預測。目前,該工具在 DARPA D3M 自動機器學習競賽中處於領先地位,這種競賽每六個月評出性能最佳的自動機器學習工具。

與 Kraska 共同撰寫論文的有:第一作者 Zeyuan Shang,研究生;還有 Emanuel Zgraggen,博士後,也是 NorthStar 的主要貢獻者。他們都是 EECS、CSAIL 和 DSAIL 的成員。Benedetto Buratti、Yeounoh Chung、Philipp Eichmann 和 Eli Upfal 都在布朗大學;而 Carsten Binnig 最近從布朗大學轉到了德國達姆施塔特工業大學。

用於分析的“無界畫布”

這項新研究是建立在麻省理工學院和布朗大學的研究人員在 Northstar 項目上多年合作的基礎之上。四年多來,研究人員發表了大量論文,詳細介紹了 Northstar 的組件,包括交互式界面、多平臺操作、加速結果以及對用戶行爲的研究。

Northstar 一開始是一個空白的白色界面。用戶將數據集上傳到系統中,這些數據集將顯示在左側的“datasets”(數據集)框中。任何數據標籤都會自動填充下面單獨的“attributes”(屬性)框。還有一個“operators”(操作)框,其中包含各種算法,以及新的 AutoML 工具。所有數據都存儲在雲端中並進行分析。

研究人員喜歡在包含重症監護病房患者信息的公共數據及上演示該系統。以醫學研究人員爲例,他們想要檢查某些疾病在某些年齡組中的共同發病情況。他們將一個模式檢查算法拖放到界面的中間,這個算法最初顯示爲一個空白框。作爲輸入,他們進入標有“blood”、“infectious”和“metabolic”的疾病特徵框。數據集中這些疾病的百分比顯示在框中。然後,他們將“age”特徵拖到界面中,界面顯示了患者年齡分佈的條形圖。在兩個框之間畫一條線將它們連接在一起。通過圈定年齡範圍,該算法可以立即計算出這三種疾病在年齡範圍內的共同發病情況。

Northstar 交互式界面的主要發明者 Zgraggen 說:“這就想一張巨大的、沒有邊界的畫布,你可以在上面展示你想要的一切,然後,你可以將所有內容鏈接在其,來創建有關數據的更復雜的問題。”

近似自動機器學習

使用 VDS,用戶現在還可以對數據進行預測分析,方法是通過定製讓模型適合其任務,例如數據預測、圖像分類或分析複雜的圖形結構。

就上面的例子而言,醫學研究人員希望根據數據集中的所有特徵來預測哪些病人可能患有血液疾病。他們從算法列表中拖放“AutoML”。它將首先生成一個空白框,但帶了一個“target”(目標)標籤,在這個標籤下面,他們會將“blood”特徵拖入其中。系統就將自動找到性能最佳的機器學習管道,以標籤的形式顯示,並不斷更新正確率的百分比。用戶可以隨時停止該過程,改進搜索,並檢查每個模型的錯誤率、結構、計算和其他內容。

據研究人員稱,VDS 是迄今爲止最快的交互式 AutoML 工具,這在一定程度上要歸功於他們定製的“估算引擎”。引擎位於界面和雲端存儲之間。該引擎利用自動創建數據集的幾個代表性樣本,這些樣本可以逐步處理,以在幾秒鐘內生成高質量的結果。

Shang 表示,“我和合作作者花了兩年的時間設計 VDS 來模仿數據科學家的思維方式,”這意味着它可以根據各種編碼規則,立即確定應該或不應該在特定任務上運行的模型和與處理步驟。它首先從大量可能的機器學習管道列表中進行選擇,並在樣本集上運行模擬。在做此事過程中,它會記住結果並改進選擇。

Kraska 說,“對於使用預測器,你肯定不希望爲了得到第一個結果需要等上四個小時。你想知道發生了什麼,如果發現錯誤,可以立即糾正。而這在其他系統中通常是不可能完成的任務。”事實上,研究人員之前的用戶研究表明,“一旦你延遲向用戶提供結果的那一刻,他們就會開始與系統失去聯繫。”

研究人員在 300 個真實數據集上對該工具進行了評估。與其他最先進的 AutoML 系統相比,VDS 的近似值同樣準確,但生成時間只有幾秒鐘,這點比其他工具要快得多,須知其他工具生成結果需要幾分鐘到幾個小時不等。

接下來,研究人員希望增加一個功能,提醒用戶注意潛在的數據偏差或錯誤。例如,爲了保護患者隱私,有時候研究人員會在醫療數據集中標註爲 0 歲(如果他們不知道年齡的話)和 200 歲(如果患者年齡超過 95 歲)的標籤。但是新手可能不會意識到這樣的錯誤,這可能會完全打亂他們的分析。

“如果你是一個新用戶,你可能會得到結果,並認爲他們很棒,”Kraska 說,“但我們可以警告人們,事實上,數據集中可能存在一些異常值,這些異常值可能表明存在問題。”

原文鏈接Drag-and-drop data analytics

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章