【AI技術生態論】35 歲以下科技創新 35 人之一,這位博士揭開美團 AI 的冰山一角!

受訪者 | 王仲遠

出品 | CSDN(ID:CSDNnews)

提起美團,你首先會想到的是什麼?是那個帶着醒目黃色的美團App,還是每日穿行在大街小巷、爲我們送上外賣美食及新鮮水果的的快遞小哥?

實際上,美團不僅有這麼接地氣的一面,也有特別「高大上」的一面,比如立足於AI技術的美團大腦和美團BERT

CSDN(ID:CSDNnews)專訪美團AI平臺搜索與NLP部的技術負責人王仲遠博士,爲大家揭曉美團在人工智能領域的「冰山一角」。

 

美團大腦打造大規模餐飲娛樂知識圖譜平臺

 

王仲遠表示,美團搜索、大衆點評搜索以及NLP中心都是放在一起的。這幾個重要的團隊之所以要放在一起,是因爲在搜索中,NLP是一個非常關鍵且核心的技術。

在過去兩年多的時間裏,隨着美團組織架構的不斷升級,美團NLP中心也開始和搜索部門併爲一體。我們都知道,業界有非常多的AI Lab和AI平臺,但大家都面臨一個普遍的困境,即AI落地不達預期。而美團創造性地把AI團隊和業務平臺團隊直接放到一起,這就能使技術在第一時間進行驗證並快速進行落地。

截止目前,美團及大衆點評的平臺上已有累計超過40億的用戶評價。在以往,這些數據只能安靜地躺在數據倉庫中「沉睡」,現在王仲遠帶領團隊通過美團的算力和算法,真正讓AI技術的研究有效地進行了落地。

具體來說,美團除了外賣以外,還涉及到店餐飲、酒店、景點門票和電影票務等綜合性生活服務。近期,如果你在美團App中搜索「口罩」,就能看到附近藥店,距離你很近的快遞小哥也能像送餐一樣將口罩快速送達到你的手中。

衆所周知,在移動互聯網之前的PC時代,人們有任何的需求幾乎都會在搜索引擎中去搜索。而在移動互聯網時代,搜索引擎實際上已經被大大弱化了,其原因就是各種垂直App的數據在底層邏輯上並沒有實現互通。而美團憑藉自身豐富的業務場景,有望打破這種「數據」孤立,並藉此成爲本地生活服務領域的一個超級App。

王仲遠給我們舉了一個很簡單的例子,當用戶在美團搜索「水餃」時,他的需求其實是有很多種可能的:他可能是想叫一份水餃的外賣,也可能是想去店裏吃堂食,還有可能是想買附近超市裏的冷凍水餃,亦或是想查查水餃的做法,或在美團上買水餃的食材。這種多樣的搜索需求,是否都能在一個App實現呢?是的,美團可以滿足這些需求。

王仲遠表示,現在美團搜索正在進行一項比較重大的改版,預計在2020年二季度會和大家見面。未來的美團搜索,將會成爲一個本地生活服務領域的超級搜索引擎。屆時,用戶可以在美團App、大衆點評App上搜索任何關鍵詞。

傳統上,大家會不自覺地在這兩個App上“小心翼翼”地挑選較短的搜索關鍵詞,比如「火鍋」、「烤串」、「麻辣燙」。但很快,用戶可以隨意表達他們的搜索需求。例如可以搜索「北京三里屯適合朋友聚餐的西餐廳」,或者「疫情期間最適合遛娃的景點」。這樣的話,用戶的體驗會得到非常明顯的提升。這背後是美團的NLP能力以及美團對於不同業務數據的高效整合能力在全力支撐。

2018 年 5 月,王仲遠開始領導團隊構建美團大規模餐飲娛樂知識圖譜的平臺——美團大腦。這個「大腦」充分挖掘、關聯各個場景數據,使用 AI 算法讓機器「閱讀」用戶針對商戶的公開評論,理解用戶在菜品、價格、服務、環境等方面的喜好,構建人、店、商品、場景之間的知識關聯,從而形成一個「知識大腦」。目前,美團大腦目前包含了 33 類概念、30 億實體、1000 億三元組,這個知識關聯數量級已經達到了世界級的規模。

       

美團BERT訓練本地生活服務模型

 

2018年10月,Google對外正式發佈BERT模型,這也是自然語言處理領域近年最具突破性的進展之一。

比爾·蓋茨曾說過:「自然語言處理是人工智能皇冠上的明珠。」想更好地理解這句話,那麼就得先來梳理下AI發展的脈絡。王仲遠歸納說,AI基本可以分爲感知階段、認知階段和決策階段。基於當前AI技術演進趨勢,他重點介紹了對於AI感知和AI認知的看法。

關於AI感知,人和動物都擁有視覺和聽覺,這種和大自然的交互,對應到AI技術便是視覺識別和語音識別。關於AI認知,據聯合國調查,世界語言十分複雜,專家估計大約有5000到7000種。而語言也是人類纔有的一種交流工具。這也是NLP的難度,比視覺識別和語音識別更難的原因,所有的語言都是人類創造的,而每一種語言的創造方式都不一樣。這就導致NLP面臨一個巨大的困境,即同一套技術,在中文上有效,在英文上未必有效。比如,分詞就是中文獨有的,英文根本不需要分詞,因爲它本身就是以單詞的形式存在。並且即便同爲中國人,對於分詞也會有不同的意見和理解。

也正因此,NLP分出很多研究分支。此外,近些年隨着深度學習的爆發式增長,行業研究者也希望能夠挖掘出人類常用語言中的共同邏輯,這樣就能讓NLP實現跨語言處理。

2018年11月,在Google提出BERT模型一個月後,美團於同年11月,成立祕密團隊——美團BERT。該團隊成立以來,一直在不斷研究和攻克美團在生活服務領域的技術難題。2019年,美團BERT取得長足的進展。該團隊使用幾百塊GPU和獨有數據,訓練出一個本地生活服務的模型。帶給用戶的直接感受是,在美團和大衆點評中搜索一個詞語,系統的識別性變得越來越高。

       

    

 

2020年,微軟研究院發起學術評測Citation Intent Recognition,評測要求參賽者根據論文中對某項科研工作的描述,從論文庫中找出與該描述最匹配的Top3論文,美團搜索與NLP部與國內兩所高校組隊,提出了一種基於BERT和LightGBM的多模融合檢索排序解決方案,一舉拿下WSDM Cup 2020 Task 1榜單第一名。

此外,美團知識圖譜組在微軟MARCO比賽中,亦是排名榜首。自2018年比賽發佈以來,知識圖譜組團隊所研發的深度閱讀理解TABLE模型在比賽指標 MRR@10上首次突破0.4,而該模型正是基於BERT的Listwise 排序模型,當時微軟官方Twitter還專門發推祝賀美團。 

這對於王仲遠以及其團隊來說,都是一種莫大的鼓舞。此外,王仲遠也曾在國際相關的學術會議上發表過40多篇論文。儘管工作非常忙,他還是通過各種途徑學習,比如國際頂級會議上的學術論文,他一定會花時間仔細去閱讀。此外,美團技術團隊內部也經常有一些前沿技術分享會他也會不時去參加,通過各種途徑增加新知識。

王仲遠認爲,人工智能的發展既快又慢。「快」是因爲知識更新非常快,他說自己就曾看到很多面試者因爲知識沒有跟上時代而慘遭淘汰。「慢」是因爲從1940年人工智能首次被提出以來,至今經過三起三落。2006年深度學習誕生,2012年人工智能進入爆發階段,但是至今八年的時間,仍有大量問題還沒有解決。

近些年,各大互聯網廠商都在推出自己的人工智能小助手。這些小助手用來幫大家聽聽音樂、查查天氣以及定下鬧鐘都還可以,但是如果想對它有更大期望,還有很長的一段路要走,很多時候,我們會發現「人工智能」和「人工智障」有時只是一步之遙。這也說明,在人工智能領域,我們還是有很多技術亟待突破。這裏要特別提一下,王仲遠博士之所以能對人工智能有這樣深刻的積累和解讀,也是得益於他多年對AI技術的專注以及積累。

 

閩地有才子,AI展才華

 

王仲遠出生於福建省仙遊縣,成長在福建省永安市,得益於父親嚴厲的管理,再加上強大的自驅力,從小學習就非常優秀,經常拿到年級第一名。

但是王仲遠的性格,卻帶着一種「寧靜致遠」的溫和,這點可能是受到性格慈和的母親的影響。「嚴父慈母」的搭配,即讓他的學習得到很好的啓蒙。高考後,他順利考入中國人民大學。在碩士期間,王仲遠說自己有幸在孟小峯教授領導的WAMDM(網絡與移動數據管理)實驗室做項目,其中一個項目還獲得了SIGMOD07 Undergraduate Scholarship獎項,當年全球僅有7位獲獎成員。巧合的是,同樣獲得獎項的一位成員,還是王仲遠日後在Facebook的同事。            

碩士畢業時,王仲遠冒險地婉拒百度、騰訊和 IBM 等衆多知名公司研究機構的邀請,選擇堅持等待微軟亞洲研究院的Offer。王仲遠說自己很幸運,微軟亞洲研究院具備很多先天優勢,在剛剛工作時就可以接觸到很多世界級的學者,瞭解各領域前沿研究已經做到什麼程度,無需摸着石頭過河。

王仲遠在微軟亞洲研究院6年多,從校招生一直做到主管研究員,負責了微軟研究院知識圖譜項目和對話機器人項目。他一直專注於自然語言處理、知識圖譜及其在文本理解方面的研究,取得了不少成績,在國際頂級學術會議如 VLDB、ICDE、IJCAI、CIKM 等發表論文 40 餘篇,並獲得 ICDE 2015 最佳論文獎。 

後來,王仲遠在前同事的推薦下,遠程參加了Facebook的面試,爲了這次面試,他元旦假期整整準備了三天的時間。幸運的是他還非常順利地拿到了工作簽證,這也讓他得以從國內到硅谷工作,去看到更大的一片天空。

到硅谷後,他感受到和微軟研究院完全不同的畫風,Facebook推行「Move Fast」文化,那裏甚至沒有測試人員,產品上線極快、基本是一週一次。在 Facebook 工作期間,王仲遠所負責的一個項目是做實體鏈接,就是要把查詢(Query)和知識圖譜進行打通,這也是 NLP 領域一個非常重要的方向。短短半年的時間,效果就提升了80%左右,成爲 Facebook內部最重要同時也是世界上最先進的產品級實體鏈接服務。現在Facebook 的搜索、推薦、廣告、智能助理等許多系統中,也在使用他此前負責的這些技術。

幾年以後,王仲遠感覺中美兩國的人工智能,已經來到同一個起跑線上,他帶着技術報國的想法回到中國,並選擇加入美團。他認爲,AI技術想真正能夠落地,需要算力,需要數據,需要算法模型,更需要豐富的應用場景。美團的應用場景豐富程度,遠超很多互聯網行業的同行。

2019 年1月21日,《麻省理工科技評論》發佈了 2018 年「35 歲以下科技創新 35 人」(35 Innovators Under 35)中國榜單,王仲遠獲評爲「遠見者」。這就是王仲遠的「AI人生」,現在已經描摹上濃重的色彩,未來必將更加明豔如春。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章