CCAI 2017 | 當機器學習遇見“衆包”——訪微軟雷德蒙研究院首席研究員周登勇...

【編者按】7 月 22 - 23 日，由中國人工智能學會、阿里巴巴集團 & 螞蟻金服主辦，CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會（CCAI 2017）將在杭州國際會議中心盛大開幕。在大會第二天上午的 Keynote 中，美國微軟雷德蒙研究院首席研究員周登勇博士將分享他與團隊在衆包中的統計推斷與激勵機制方面的研究進展與成果。

提到衆包，想必大多數人都不陌生，“一個公司或機構把過去由員工執行的工作任務，以自由自願的形式外包給非特定的（而且通常是大型的）大衆網絡的做法。衆包的任務通常由個人來承擔，但如果涉及到需要多人協作完成的任務，也有可能以依靠開源的個體生產的形式出現。”這一概念由美國《連線》雜誌的記者傑夫·豪（Jeff Howe）在 2006 年 6 月提出，衆包模式的出現極大的提升了企業工作效率而且大幅降低成本。

人工智能時代即將來臨，作爲實現人工智能的重要方法，機器學習開始受到廣泛關注。訓練機器學習系統需要大量的帶標籤數據，實現諸如語音識別及圖片分類等功能，比如將帶有花朵的圖片與“花朵”這個詞語捆綁起來。傳統基於專家的數據標註緩慢而昂貴，基於此，機器學習開始與衆包模式相融合，後者成爲了當今獲取標註數據的基本手段。

儘管聽起來非常簡單，但如何利用衆包打造機器學習的高品質數據庫遠不是一件簡單的事情。衆包背後涉及哪些技術？怎樣保證數據精準？帶着這些問題，我們採訪了美國微軟雷德蒙研究院首席研究員周登勇博士，就衆包與機器學習融合中的一些問題進行了請教。

周登勇（Dengyong Zhou），美國微軟雷德蒙研究院首席研究員。在加入微軟研究院之前，周登勇博士曾任職於德國馬普研究所智能系統分所（Max Planck Institute for Intelligent Systems），以及 NEC 美國研究院普林斯頓分部的機器學習部。他在中國科學院自動化所獲得人工智能專業博士學位，並同時獲得中國科學院院長獎學金。周登勇博士在微軟工作期間曾獲研究院金星獎，以及擔任 NIPS 與其他若干國際會議的領域主席。

以下爲採訪實錄：

CSDN：首先請與我們的讀者分享一下您與團隊目前正在專注的研究領域，以及取得了怎樣的進展？

周登勇：在微軟雷德蒙研究院，我與我的團隊一直專注在如何提高衆包數據的質量這個基本問題上。具體來說，我們主要集中在兩個方面：一是如何從非專家標註的數據中提煉出高質量的標註，二是如何激勵數據標註員工提供高質量的工作。針對這兩方面問題我們進行了算法和理論基礎的研究，一些技術發明已經應用在產品中。

CSDN：我們知道，衆包是獲取大量的帶標籤數據，供機器學習系統進行訓練的一種方式，那麼是什麼促成了衆包模式的出現，採用衆包模式相比傳統的數據收集方式具有什麼優勢？

周登勇：在建立基於機器學習的智能系統時，只要有大量的訓練數據，一個樸素的機器學習模型往往可以完勝一個只是基於很少量數據訓練出來的精心設計的高級模型。當你需要短時間內提高一個機器學習應用的性能時，大幅度增加訓練數據應該是優先考慮的策略，而獲得大量標註數據可以通過衆包達到。

一個商業化的互聯網衆包平臺可能有上百萬分佈在世界各地的數據標註員。他們能以低廉的價格在幾天甚至幾小時之內就產生大量的標註數據。相比之下，傳統的基於專家的數據標註緩慢而又昂貴。

CSDN：通常認爲，衆包的工作流程是任務準備、任務執行、任務答案整合。在此基礎上，微軟雷德蒙研究院有哪些創新？效果如何？

周登勇：微軟雷德蒙研究院的多個小組在衆包不同方面的問題上展開了深入而又持久的研究。我們的研究工作往往與產品部門緊密配合。隨着數據的類型以及數據收集流程的不同，衆包的問題會很不一樣。我與我的團隊提出了一個叫極小極大熵原理的簡潔的統計推斷模型用於衆包任務答案整合。該原理可以適用於很多類型的數據，包括多類別的數據，分級數據，以及結構化的數據，也可以很容易融合先驗知識。在任務執行上，我們從博弈論出發提出了一種叫翻倍或者歸零的付錢機制，數據標註員可以選擇不回答他沒有把握的問題。採用這種付錢方式，我們觀察到數據標註的錯誤率大幅度降低。而且，理論上我們還證明了這也是經濟上最節省的付錢方式。

CSDN：在衆包中，任務花費、質量和時間是重要的三個指標，但往往無法兼得。該如何平衡這三者的關係？

周登勇：這三個問題的平衡與具體的衆包任務密切相關。一般來說，質量是更重要的指標，如果沒有質量，再低的花費與再少的時間都是沒有意義的。我與我的團隊考慮過任務花費與質量的平衡。我們的目標是在一個給定的預算下獲得最高質量的數據。大致說來，我們考慮一種在線的衆包模式。在每一步，我們需要做出兩個決定：一是哪個數據需要標註，二是讓誰來標註。我們爲這個問題設計了一個基於馬爾科夫決策理論的數學模型，並提出了一個稱之爲知識梯度的有效算法。

CSDN：通過衆包會獲取大量的數據，這些數據在應用於機器學習系統之前，可以通過哪些技術和操作，改善數據的質量？存在哪些誤區？

周登勇：這些數據在應用於機器學習系統之前，我們要做數據整合，前面提到的極小極大熵原理的統計推斷模型就是服務於此。有些人或許喜歡考慮將數據整合與機器學習的訓練算法捆綁到一個單一的模型中，技術上很容易做到，但這個或許不是好的主意。我傾向把數據整合與模型訓練分開，這有兩方面原因，迄今爲止，我還沒有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是，在實際應用中，當機器學習系統出了問題，我們通常需要精確知道到底是哪個環節出了問題。捆綁模型模糊了整合與訓練這兩個環節的界限。

CSDN：衆包中的統計推斷背後涉及哪些關鍵技術？哪些對質量的影響最大？

周登勇：衆包中的統計推斷技術已經比較成熟，特別是針對多類別的數據。我們的極小極大熵原理的統計推斷模型能用到很多不同的數據類型上，對不同的數據類型當然需要做一些適當的調整。但是，衆包遠不只是一個靜態的數據處理問題，爲改善衆包數據質量，我們還需要考慮其他的環節。比如說，在衆包工人執行標註任務之前，執行資格考試，只有達到了一定的正確率，纔有資格標註數據。否則，需要一定的職能訓練直到達標。這樣的一個環節通常會帶來顯著的數據質量改善。另外，我前面提到，付錢方式也會對數據質量產生很大的影響，有效的付錢方式會讓衆包工人願意付出足夠的努力把工作完成好。

CSDN：目前衆包平臺的激勵機制有哪些缺陷，AI 新技術能帶來哪些不同？未來的困難會在何處（例如是否有可能作弊）？請舉例說明。這些研究，除了“衆包”還有可能應用在哪些領域？

周登勇：目前衆包平臺的激勵機制一般都是一些經驗方法。比如說，隨機抽查一些結果，如果回答質量過得去的話，就付全款；否則，就不給錢。我們是把激勵機制奠定在堅實的數學基礎之上，並發展了實際上簡單而又有效的付費機制。目前，這方面還有諸多問題需要更仔細的考慮。比如說，抽查結果的工作量可能太大，我們需要設法減少對抽查的依賴，而一旦減少抽查會讓作弊更容易。還有，一些比較困難的標註問題，比如說自然語言處理的標註，需要提供有吸引力的市場價格吸引足夠多的衆包工人去標註。這些問題目前還只是有一些粗淺的經驗方法，還有很長的路要走。對衆包中激勵機制的研究工作可以不只是用在衆包中，可以放在更大的範圍之內考慮，特別是在人機結合的智能系統中我們也需要考慮如何合理激勵每位參與人員。

CSDN：擁有怎樣特徵的公司應該構建自己或者使用第三方衆包平臺，應該考量哪些要素？可否簡單舉例說明？

周登勇：大數據驅動佔據核心位置的公司都需要考慮使用衆包平臺。如果數據的私密性很重要，需要構建自己的衆包平臺。否則，可以直接使用第三方平臺。平臺的易用性是一個重要考慮因素。不管是衆包工人還是標註任務提供者都會喜歡容易使用的平臺。平臺的靈活性也很重要，特別是任務分發以及付錢機制上需要有足夠的靈活性。還有，平臺需要提供一些基本的質量控制功能包括檢測作弊。

CSDN：您將在今年的 CCAI 大會上發表《衆包中的統計推斷與激勵機制》主題演講，希望此次演講能夠爲聽衆帶來怎樣的啓發，以幫助他們解決當前在人工智能領域哪些共性問題？

周登勇：通過做這個衆包工作的報告，我希望大家看到人機結合的智能系統的潛力。在可以預見的將來，機器智能完全代替人的智能幾乎沒有任何可能。我們應該是讓人與機器各施所長互相補充。數據標註是一個比較簡單的人機系統，但是這裏麪包含的技術已經相當有挑戰性。如果我們要建立更復雜的人機智能系統解決更大的問題，會有更多的新的困難需要克服。另外，我們也通過報告展示出如何在一個看起來實際得不能再實際的問題上發展出堅實優雅的數學理論併產生有效的實用技術。這是基礎研究的魅力，這需要足夠的時間，耐心與環境支持。在我們的工作之前，衆包領域的工作基本是處於非常初級的經驗主導的階段。

CSDN：在此次 CCAI 大會上，您對哪些內容比較感興趣？

周登勇：我非常高興參加這次中國人工智能大會。人工智能正在國內呈現爆炸性的發展，從各種互聯網公司到學術研究。我對這次人工智能大會的所有的內容都很有興趣。特別是，我許多朋友都來參加這次大會，他們在人工智能領域做了傑出的工作，我非常高興我們能聚在杭州這個美麗的城市一起談論人工智能領域的最新進展。

關於 CCAI

中國人工智能大會（CCAI），由中國人工智能學會發起，目前已成功舉辦兩屆，是中國國內級別最高、規模最大的人工智能大會。秉承前兩屆大會宗旨，由中國人工智能學會、阿里巴巴集團 & 螞蟻金服主辦，CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會（CCAI 2017）將於 7 月 22-23 日在杭州召開。

作爲中國國內高規格、規模空前的人工智能大會，本次大會由中國科學院院士、中國人工智能學會副理事長譚鐵牛，阿里巴巴技術委員會主席王堅，香港科技大學計算機系主任、AAAI Fellow 楊強，螞蟻金服副總裁、首席數據科學家漆遠，南京大學教授、AAAI Fellow 周志華共同甄選出在人工智能領域本年度海內外最值得關注的學術與研發進展，匯聚了超過 40 位頂級人工智能專家，帶來 9 場權威主題報告，以及“語言智能與應用論壇”、“智能金融論壇”、“人工智能科學與藝術論壇”、“人工智能青年論壇”4 大專題論壇，屆時將有超過 2000 位人工智能專業人士參與。

目前，大會 8 折優惠門票正在火熱發售中，掃描下方圖片中的二維碼或直接點擊鏈接火速搶票。