谷歌採用弱監督算法給大規模數據集打標籤

谷歌意識到標籤數據是機器學習的一個重要瓶頸,所以最近採用了開源框架Snorkel來解決這個問題。谷歌與斯坦福和布朗大學合作研究這個問題。他們在AI博客上記錄了研究結果,並發表了一篇名爲“Snorkel Drybell:在行業規模部署弱監督的案例研究”的論文。

Snorkel通過軟件算法爲訓練數據打標籤,而不是通過手動的方式。這項技術被稱爲弱監督。該算法可以使用任何可用的知識,包括知識圖譜、規則和統計信息。有多種算法可用來給同樣的數據打標籤。每種算法可以提供一個或多個標籤,也可以去掉標籤。然後Snorkel會自動基於對標籤準確性的估計來分配權重。Snorkel通過比較標籤的準確性來做出估計,並基於算法權重和相關標籤爲每個數據點創建一個單獨的概率性標籤。

谷歌基於Snorkel構建了Snorkel Drybell,旨在處理Web規模的數據。它將Snorkel與TensorFlow進行了集成,加入了共享內存計算,增強了原先的單節點設計。谷歌並沒有強制用於表示訓練數據的數據模型採用嚴格的上下文層級結構。它還移除了對使用數據庫保存數據的依賴,取而代之的是分佈式文件系統。最後,谷歌將標籤功能作爲單獨的可執行文件,可以在文件系統上共享數據。這些變化讓Snorkel可以使用大量的知識,並基於弱監督算法對數據打標籤。

谷歌使用Snorkel Drybell分別對兩組模型(一個是12,000個數據點,一個是80,000數據點)進行了測試,並與手動打標籤的數據進行了比較,結果得出了相近的預測準確性。另外,基準測試結果顯示,使用Snorkel Drybell的性能平均提升了52%。

Snorkel最初由斯坦福DAWN項目創建。DAWN主頁上寫道:“DAWN是一個爲期5年的研究項目,旨在通過簡化構建AI應用程序來展示AI的力量。Snorkel是這個項目組合中的子項目之一”。與DAWN的願景和在軟件2.0中使用弱監督的信息分別可以在“一個有用的機器學習基礎設施:斯坦福DAWN項目”和“多任務和弱監督在軟件2.0中所扮演的角色”中找到。

查看英文原文Google Scales Weak Supervision to Overcome Labeled Dataset Problem

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章