【BDTC 2017講師專訪】張偉博士:阿里巴巴百億級別的三元組知識圖譜掌舵者

12 月 7 - 9 日,中國大數據技術大會(Big Data Technology Conference 2017,BDTC 2017)將在北京新雲南皇冠假日酒店隆重舉行。超過 120 位國內外技術專家將爲現場千名以上的大數據行業精英、技術專家及意見領袖帶來 100 多場技術演講。

日前,我們採訪了知識圖譜論壇的演講嘉賓阿里業務平臺商品知識圖譜負責人張偉,他將在會上分享《人工智能下的商品知識圖譜》,將闡述應用在知識圖譜中的前沿NERL和推理技術,重點介紹商品知識圖譜在阿里巴巴前端導購、平臺治理和智能問答上應用。

【以下爲採訪正文】

張偉

阿里業務平臺商品知識圖譜負責人、高級專家張偉

CSDN:請向大家介紹一下自己你和目前所從事的工作,以及關注哪些技術領域?

張博士:現在主要從事阿里商品知識圖譜的構建與應用的工作。首先, 阿里商品知識圖譜承載着商品標準化這一基礎性,根源性的工作。通過知識表示來規範對商品數據的描述。基於此,我們才能知道哪些商品是同樣一件東西, 我們才能確切地知道一個品牌是否被授權,品牌下的產品賣到了哪些市場,才能真正統計出品牌商單品的銷量等信息。才能真正的運用大數據指導供應鏈端,使傳統制造業也共享大數據時代帶來的智能,幫助製造業升級。

其次,阿里知識圖譜以商品、 標準產品、 標準品牌、 標準條碼、標準分類爲核心,綜合應用實體識別、實體鏈指和語義分析技術,整合關聯例如輿情、百科、國家行業標準等多域數據,建設百億級別的三元組,從而形成巨大的知識網。基於這個巨大的知識網絡我們來提升消費者購物體驗,同時降低消費者判斷的成本。

現在關注的技術領域主要與知識圖譜相關,例如商品大數據、推理引擎、知識挖掘、信息提取、知識表示等。

CSDN:你是如何選擇知識圖譜的,有什麼特別的故事可分享?

張博士:這個問題,要從09年我的博士課題選擇說起,當時我的導師給了我兩個可能的方向一個是Knowledge Base Population(KBP),一個是neural network (NN),當然幾年後,這兩個方向都大放異彩, KBP因爲Google的原因,以知識圖譜的名字被大家所熟知。NN發展成深度學習爲大家所熟知。 當時這兩個方向還沒有像現在這樣受人關注。

我深入進去對這兩個方向前沿工作做了調研,立刻對KBP產生了很多想法,其中有個想法也得到了導師的確認。當年就這樣,在KBP方向上開始了科研,想法第二年發表在了自然語言處理國際會議Coling上。09年美國國家標準化與技術研究院(NIST)舉辦了第一屆KBP比賽,這個比賽現在還在延續並且得到了更多的關注。我有幸在09年KBP這個領域早期參與進去,並且系統也在KBP比賽上獲得了最好的成績。就這樣進入了知識圖譜領域。

CSDN:可否根據您多年的經驗,可否請你談下對「知識圖譜」的理解?

張博士:知識圖譜將信息表達成更接近人類認知世界的形式,提供了幫助互聯網組織、管理和理解海量信息的能力,已經成爲推動人工智能發展的核心驅動力之一, 是人工智能的基石。 在這種信息組織形式下,客觀世界的實體例如人物、遊戲、歌曲、商品、生產商等被描述成知識圖譜的節點,知識圖譜的邊來刻畫實體之間的關係。從而客觀世界被表示成結構化、語義化的知識圖譜。知識圖譜的工程能力使得知識建設更標準、更開放。文本挖掘技術使得非結構化信息變得結構化。知識表示與推理使得數據能夠驅動人工智能。

CSDN:知識圖譜的價值可能最爲真切的反饋是在應用,你認爲有知識圖譜應有着哪些應用?

張博士:知識圖譜主要的應用有三個方向,一是搜索推薦,使得人們獲取信息的路徑更短,幫助人們發現未知的知識。二是智能問答,在這種全新的人機交互形式下,對信息要求有更高的整合度、覆蓋度和語義化,知識圖譜扮演者“大腦”的角色。三是數據分析與決策模型構建,特別是垂直知識圖譜在這方面的應用非常廣泛。例如法律、醫療、農業圖譜中,知識圖譜提供了數據的全局視圖和更語義化的表達,給從業者帶來了大數據驅動的決策能力。

CSDN:目前,在阿里知識圖譜的最大應用場景是什麼?

張博士: 商品知識圖譜作爲商品‘大腦’的一個應用場景就是導購。而所謂導購,就是讓消費者更容易找到他想要的東西, 比如說買家輸入“我需要一件漂亮的真絲絲巾”, “商品大腦”會通過語法詞法分析來提取語義要點 “一”、“漂亮”、“真絲”、“絲巾”這些關鍵詞,從而幫買家搜索到合適的商品。在導購中爲讓發現更簡單,“商品大腦”還學習了大量的行業規範與國家標準,比如說全棉、低糖、低嘌呤等。此外,“商品大腦”可以從公共媒體、專業社區的信息中識別出近期熱詞,跟蹤熱點詞的變化,由運營確認是否成爲熱點詞,這也是爲什麼買家在輸入斬男色、禁忌之吻、流蘇風等熱詞後,出現了自己想要的商品。最後,智能的“商品大腦” 還能通過實時學習構建出場景。 比如輸入“海邊玩買什麼”,結果中就會出現泳衣、游泳圈、防曬霜、沙灘裙等商品。

除了更方便的購買,這個“商品大腦”的另一大作用就是防禦問題商品的入侵。阿里商品管控從過去的平臺事後“巡檢”模式升級爲發佈端實時逐一檢查防禦模式。在海量的商品發佈量的挑戰下,最大可能地藉助商品知識圖譜,依靠大數據、人工智把壞人、問題商品攔截在阿里生態之外。在知識圖譜對商品實時檢查時,面臨着問題商家實時的對弈、變異和惡意攻擊等諸多挑戰,知識圖譜仍然保持着每天千萬級別的攔截量,億級別的全量智能審覈次數,在濫發、侵權、合規、問題商品、經營範圍等多個場景全面在與問題賣家正面交鋒,實時對弈。

CSDN:未來阿里還有哪些的規劃和願景?

張博士:阿里商品知識圖譜希望讓消費者的購物鏈路最大可能的縮短,讓發現更智能,讓判斷更簡單

CSDN:網上有言論說「知識圖譜是通向強人工智能之路的石油」,對此你怎麼看?以及你認爲對於知識圖譜和人工智能的關係是怎樣的?

張博士:這句話充分說明了知識圖譜對於人工智能的重要性。人工智能是未來,而知識圖譜是打開未來的鑰匙。隨着時間發展,人工智能在越來越多的領域會超過人類,而且深度學習讓這個趨勢在加速。但這些領域例如下棋,捉貓等相對孤立,這些模型很難像人一樣去思考。知識圖譜應該是這把鑰匙。

CSDN:行業中也有大量的人對知識圖譜以及人工智能相關的技術感興趣,如果從知識圖譜入手學習,有什麼好的建議嗎?

張博士:知識圖譜相關技術涉及的面比較廣,可以從文本挖掘知識表示與推理其中一個領域去探索,當然這其中有涉及很多機器學習的基礎知識。最好的學習方法還是實踐,在項目實踐中去學習。

CSDN:如果從事知識圖譜這個領域的工作,需要哪些技能呢?

張博士:我們知識圖譜方向招聘一般具備文本挖掘、知識表示與推理、圖挖掘一個領域的技能就好。


  1. 直接訪問大會官網:http://bdtc2017.bigdataforum.org.cn/
  2. 長按識別或掃描官網二維碼;
    圖片描述
  3. 大會火速報名中,購票地址:http://huiyi.csdn.net/activity/product/goods_list?project_id=3673

相關閱讀:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章