對話淘寶內容搜索、評價歸納的幕後英雄

10月11-14日,爲期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,作爲全球最具影響力的科技展會之一,本屆大會將有不少阿里集團專家以及各企業行業領袖的精彩演講,CSDN授權轉載了雲棲大會嘉賓的專訪內容。本期我們採訪的是阿里iDST Natural Artificial Intelligence團隊(以下簡稱iDST NLP團隊)負責人司羅,他將在10月的雲棲大會上分享NLP領域的前言趨勢以及阿里巴巴在這一領域的成果。

司羅是最早一批從學術界轉向工業界的人工智能科學家之一。

2006年,卡內基梅隆大學博士畢業的司羅進入另一所人工智能頂級高校——普渡大學計算機系任教,在這期間,他專注於信息檢索、機器學習、自然語言處理等領域的研究,他是一位高產的學術專家,短短几年就發表了100餘篇論文;2012年,成爲普度大學計算機系終身教授後,一舉奠定了司羅在學術圈的地位,他先後擔任了ACM信息系統(TOIS),ACM 交互信息系統(TIIS)和信息處理與管理(IPM)編輯委員會的副主編,多次在國際學術會議擔任重要職務(如2016 ACM CIKM 技術主席等)。

但出人意料的是,2014年司羅結束了8年的學術生涯,成爲阿里人工智能科學家陣營的一員。

對於這樣的轉變,他表示並不陌生。

“我在普渡大學任教期間就對技術應用場景和產品化、商業化的工作非常感興趣,當時也有很多和工業界的合作。”司羅如此表示。

據瞭解,司羅主導的 20 餘個項目得到了美國政府以及雅虎、谷歌等工業界的資助,例如美國國家科學基金會成就獎、雅虎,谷歌研究獎等。

司羅在學術研究上的成功以及對人工智能商業化的理解讓整個阿里巴巴集團的自然語言處理、搜索和推薦能力提升了一個臺階。去年11月,他帶領的團隊在信息檢索、知識管理以及數據庫領域的全球頂尖學術會議CIKM Cup競賽中力壓對手獲得冠軍,相比主辦方提供的搜索排序基準指標,該團隊提升了21.28%。

目前,iDST NLP團隊主要分佈在美國西雅圖、硅谷以及杭州三地,他們用算法服務了阿里集團近十個DAU上千萬的場景——淘寶評價、內容搜索、資訊推薦等;這是一支戰鬥力極強的團隊,他們全部來自伯克利、普林斯頓、卡內基梅隆、清華、北大以及中科大等知名院校,不僅能做前沿學術研究,也善於把技術落地到實際應用場景中。

作爲阿里iDST大團隊的一部分,iDST NLP主要爲阿里大生態系統提供自然語言處理相關的基礎技術,以及垂直應用的技術支持。但在司羅眼中還有更長遠的目標——通過技術輸出賦能消費者、客戶以及合作伙伴。

以下是採訪實錄:

記者:介紹一下iDST Natural Artificial Intelligence團隊。

司羅:衆所周知,整個iDST團隊在金榕老師帶領下涵蓋了人工智能幾個重要的方向,包括語音、圖像和NLP等。iDST NLP團隊成員主要分佈在“兩岸三地”(美國的西雅圖、硅谷和中國杭州),從地域來看,美國地區由經驗豐富的專家組成,而國內更多的是年輕、有朝氣、能夠貼近業務的專家和工程師,他們都來自國內外一流的大學,例如伯克利、普林斯頓、卡內基梅隆大學、清華、北大以及中科大等。

除此之外,我們現在還在籌建阿里在新加坡的研發中心,所以未來會形成三岸四地的格局。

iDST NLP團隊主要爲阿里大生態系統提供國際化多語言自然語言處理相關的基礎技術,以及重要的自然語言垂直應用的技術支持,未來也希望把阿里的自然語言技術發揚光大,通過技術輸出賦能消費者、客戶以及合作伙伴。

團隊在全球頂級的大賽中也取得了很多突破,例如在CIKMCUP競賽中我們獲得了冠軍,相比主辦方提供的搜索排序基準指標,我們團隊提升了21.28%,這是一個非常了不起的成績。

記者:iDST NLP團隊的定位是什麼,重點在做哪些項目?

司羅:剛纔談到iDST NLP團隊主要爲整個阿里大生態提供自然語言處理技術,同時也會對外賦能、處理相關的垂直應用。

從基礎技術角度來看,去年年底我們開始搭建AliNLP技術平臺,這個平臺涵蓋了很多自然語言處理的技術,例如詞法分析、句法分析還有文檔分析等。

AliNLP平臺從去年年底開始研發,到今年年初開始上線,經過了內部團隊不斷的優化,目前爲整個阿里大生態提供了一個基礎的NLP算法。AliNLP平臺它所產生的價值和影響力也在不斷提升,到現在已經超過了90個業務方,每天的調用量超過了四百億次。這裏先做個預告,AliNLP平臺正在上雲的過程中,初期會通過阿里雲的輸出幾個重要的功能,包括分詞、實體識別、情感分析和文本反垃圾等,敬請期待。

除此之外,我們還在搭建另一個基礎技術平臺——阿里IE平臺(Information Extraction,信息抽取平臺)。因爲很多場景下的文本是非結構化的,這就需要把它變成一個結構化的知識表示,例如拍賣場景中的委託書,我們需要從委託書中抽出什麼是被委託的商品,拍賣的委託方是誰,希望中標的價格是多少……只有把這些信息有效的提取出來,才能建立搜索、推薦等功能。搭建阿里IE平臺也是希望把基礎算法能力在整個阿里集團的上層應用發揮作用。

當然,在阿里巴巴集團內部,我們也是很多自然語言相關業務的算法提供者,例如阿里電商環境的資訊搜索(淘寶頭條的搜索、手淘淘攻略的搜索);還有整個淘系內部的評價,不僅要去掉涉黃涉暴力的內容,還需要知道消費者表達的是正面的評價還是負面的評價。

阿里集團內部有很多場景都涉及到自然語言處理相關的技術,都需要我們來提供算法的支持。

目前,團隊還是集團內部很多重要業務的算法合作方,例如我們和和阿里小蜜合作研發了機器閱讀理解的技術。

所以總結起來,我們在做三件事:基礎技術平臺的產品;重要業務算法的提供,淘寶內部的評價、資訊的搜索與推薦;重要技術的算法貢獻。

記者:AliNLP平臺上線前後遇到了哪些挑戰?

司羅:毋庸置疑,自然語言處理在很多應用場景當中都很重要,但是過去沒有一個系統性的規劃。我們是從去年12月份開始規劃做這樣一個平臺,希望把自然語言處理重要的功能承接下來。

雖然AliNLP的願景很美好,但是最開始遇到了很多挑戰,因爲團隊中的很多工程師是做業務的,但是AliNLP更像是技術導向的平臺,所以我們必須花很多時間讓更太多的人蔘與進來。在團隊組建好後,就開始給項目做規劃,因爲這是一個從無到有的產品,大家必須把做出更多的嘗試,從哪個角度出發,用什麼樣的技術能達到比較好的效果等等。

從最初項目的規劃到平臺的上線確實花了很多的時間和精力,但是我覺得這個時間和精力是很值得的。

記者:相比計算機視覺,NLP的發展相對較慢,從目前來看NLP發展到了一個什麼樣的階段?

司羅:我認爲NLP是既成熟又有活力,既實用又有技術遠景的領域。

事實上,最早從六七十年代開始,自然語言處理都是採用“規則”方法, 80年代後隨着大的數據集的出現,統計自然語言處理方法便逐漸成爲了主流;最近幾年,隨着深度學習的崛起,NLP也取得了快速的發展,所以我認爲它是一個非常成熟的領域;爲什麼說有活力呢?最近兩三年創業最火的方向之一就是Chatbot,這是和自然語言處理緊密相連的領域。

既實用是指現在自然語言處理已經在很多領域都有很廣闊的應用了,以阿里集團爲例,幾乎阿里的每個重要的產品都跟自然語言處理相關,例如商品的搜索和推薦,它是一個非常實用的一個學科;當然,它也是非常有技術挑戰的學科,真正意義上的語義理解(能夠分析出說話的背景,它要達到什麼樣的目的等等)不是靠數據上的關係分析就能實現的,例如siri、Cortana都是基於數據驅動的方式來實現語義理解,但它無法像人一樣去理解。

所以,自然語言處理是實現完整人工智能或者叫強人工智能的一個必要的技術,而現在離這一遠景還有很長的距離,這需要工業界和學術界共同的努力。

記者:iDST NLP團隊現在做出了哪些的突破?

司羅:iDST NLP團隊現在還是基於我們本身的業務以及場景爲出發點,一個有代表性的是情感分析上的領先,例如,電商場景的情感分析和其他友商提供的產品相比大約有10%的準確率的優勢,當然一方面原因是阿里本身就擁有大量的電商數據,但更多的是因爲我們做了很多通用領域的輿情,例如把技術用在一些學術界的標準數據集上,在電影評價上的標準數據集,我們也比學術界的最好成績能領先2%以上。

另外,我們還是第一家真正大規模的把機器閱讀理解應用到實際電商場景中的企業。所以在應用的實用性上,例如高效的模型的設計、高效的模型的實現都做了開創性的工作。最後,是自然語言生成。自然語言生成有兩種方式,一種就叫抽取式,一種叫產生式,我們在這兩方面都做了很多嘗試:抽取式典型的例子是電商標題的改寫,能夠比較顯著的提升點擊率和轉化率;生成式方式,我們現在是和阿里媽媽合作,它可以幫助聯盟的用戶更好的把他們所挑選出的商品在投放到社交渠道。

記者:您覺得創業企業如何在NLP領域找到突破口?

司羅:創業企業特別是小企業要取得成功,我覺得有兩種方式相對來說比較容易取得成功:一種只專注於某項具體的技術,就是把某一項或者一兩項技術做深,做到真正的領先,創業企業不適合做一個完整的技術平臺,較難有大量的投入,甚至大量的數據;第二種方式是專注於一個領域,自然語言處理得應用很廣,例如法律文書的自然語言理解和微信閒聊的差距是巨大的,還有從專利中挖掘信息做競品分析也有市場空間,初創企業可以考慮專注這些細分領域,面面俱到反而沒有自己的特色。

記者:未來,NLP會朝什麼方向發展?

司羅:雖然深度學習是非常有價值的技術方向,它推動了自然語言處理的發展,但是我是覺得靠分步學習,或者統計自然語言理解是遠遠不夠的,我們一定要把人類的知識表示,和對知識的理解更好的融入到技術當中,這樣才能更有效,真正的達到自然語言理解本身的目標,否則就是光靠數據驅動,剛纔也有提到,所以我認爲把這一趨勢的研究和數據結合是自然語言未來發展的重要課題。

記者:您希望在下個月的杭州雲棲大會上關注哪些議題?屆時,您會分享什麼話題?

司羅:首先,是機器學習、自然語言處理相關的技術問題;其次,業務上的議題我也很感興趣,我非常希望通過這屆雲棲大會了解到各行各業對自然語言處理技術的需求,這樣才能夠更充分的理解客戶的需求,做到有的放矢,才能讓然語言處理的技術發揮最大的價值。

在本次大會上,我們組織了NLP專場,並且邀請到了很多外部學者,例如加拿大皇家學院的李明院士,還邀請了國內的,中國中文信息學會祕書長孫樂,蘇州大學計算機學院副院長張民老師等,他們都是學界的領軍人物;除此之外,因爲這是雲棲大會第一次辦自然語言處理的專場,我們也希望借這個平臺把iDST NLP團隊的自然語言處理的技術能力對外展示,例如,我們會全面介紹AliNLP的平臺技術輸出,以及情感分析、機器閱讀理解等。(購票請戳這裏!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章