新浪微博黃波:千人千面,機器學習賦能用戶信息流消費

10月11-14日,爲期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,作爲全球最具影響力的科技展會之一,本屆大會將有不少阿里集團專家以及各企業行業領袖的精彩演講,CSDN授權轉載了雲棲大會嘉賓的專訪內容。本期我們採訪的是新浪微博機器學習平臺負責人、資深架構師黃波,他將在10月的雲棲大會上分享微博信息流產品中機器學習和深度學習的實戰解讀、最新進展,以及搭建微博機器學習平臺和深度學習平臺的經驗總結。

黃波,微博機器學習平臺技術負責人、資深架構師,負責微博機器學習平臺和Feed算法系統。他畢業於中科院計算所,參與研究了高性能計算和算法優化;並曾供職於百度,參與開發了分佈式文件系統。2010年加入新浪微博,目前專注於機器學習、深度學習、高性能計算、大數據處理等領域,致力於打造機器學習平臺和深度學習平臺,將機器學習技術和分佈式計算應用於微博 Feed信息流、推薦、反垃圾等業務場景。

跬步千里,微博深入應用新興技術

新浪對於大數據和人工智能技術的應用,最早可以追溯到2008年,並且隨着技術的深度應用在不斷髮展完善。

2008年左右,新浪開始搭建Hadoop集羣,建立信息系統收集公司級的基本數據,奠定了大數據系統的基礎。2009年起,隨着微博的興起和壯大,越來越多的用戶、內容和行爲等業務數據沉澱下來,奠定了大數據的業務數據和業務場景基礎。2011至2012年,微博開放平臺讓微博數據和第三方數據能夠互通。2013至2014年,成功構建了大數據Darwin平臺,用於梳理和挖掘用戶數據及行爲數據,刻畫了微博用戶的用戶畫像,並對微博短文本進行分析理解,形成了內容標籤等內容理解體系;同時在技術上,以分佈式離線處理爲基礎,成功引入了實時流計算,讓數據能更快發揮價值,從而更好地服務於業務。2015年起,微博大數據和Feed、熱門微博等業務充分結合;2016年,開始強調機器學習和人工智能挖掘數據價值的能力在業務中的作用,並開發搭建微博的機器學習平臺和深度學習平臺。

毋庸置疑,大數據、機器學習、人工智能已經逐漸滲透到了微博的各大業務中。然而,這一過程中不可避免地遇到了一些技術挑戰。黃波表示,分佈式離線計算技術的挑戰就是其一,因此微博緊跟業界Hadoop生態的發展,由Hadoop 1.0升級到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等組件,解決了大數據離線處理的問題。其次是實時流計算技術的挑戰,基於此微博選擇了依靠開源社區的發展,包括Storm、Spark Streaming等技術的發展和成熟。“目前遇到的最大問題是大規模機器學習和深度學習技術”,爲了從容應對這一難題,微博一方面持續深入和阿里雲的合作,引入數加、EMR、HPC、PAI等成熟系統來加快技術發展速度,另外一方面還依靠了開源社區的Glint、Angel、Spark、Tensorflow等機器學習技術,自研和完善參數服務器WeiPS、機器學習編程框架WeiFlow來滿足微博機器學習和深度學習平臺的業務需要。

千人千面,人工智能助力億級規模的用戶畫像

數據是人工智能的基礎。微博充分發揮了作爲社交媒體的先天優勢,以其平臺所擁有的億萬級圖片、視頻和文本數據,刻畫出了微博龐大的業務體系和用戶畫像。

黃波介紹,微博數據有內容數據和用戶數據這兩類。內容數據包括圖片、視頻和文本等。對於這類數據的處理方法,一是將內容數據映射到微博內容標籤體系(微博內容標籤體系分爲三級內容標籤,例如:一級的體育;二級的籃球;三級的金州勇士等),可解釋性強,但存在一定歧義,準確性有待提高。另一種處理方式是對內容做embedding,通過embedding向量做匹配或推薦,能夠對內容更深入地理解,但是解釋性較差。內容數據還有一個獨特的點是內容發佈人,即發博者。在長期的實踐中可以發現,社交網絡和社交媒體中的發博者有着相對穩定的特徵,在業務場景下簡單有效。用戶數據包括用戶靜態數據和用戶行爲數據,通過挖掘用戶性別、年齡、地域、註冊時間、賬號類型、是否橙V等靜態特徵構建用戶靜態畫像,通過分析用戶在業務產品中的特定行爲來構建用戶行爲畫像,例如用戶一級興趣標籤、用戶實時興趣標籤等。

以上所述的內容數據和用戶數據就是業界常說的特徵,通過與模型的結合,能爲微博Feed信息流、熱門微博等場景帶來顯著的效果提升。在這其中,人工智能技術的部署應用,也爲微博的整體技術架構帶來了深刻的變化。

人工智能技術的引入,讓微博的離線系統、實時系統、在線系統融合得更加緊密。在線系統的業務數據化爲機器學習提供了最基礎的業務樣本數據;離線系統的模型訓練充分利用了分佈式計算能力,加強了對大數據的處理和理解;離線訓練出的模型加載到在線系統並應用於業務系統中,能夠爲業務發揮作用;同時,實時系統不僅可以提供實時特徵,而且還能提供機器學習在線訓練服務,有效保障了特徵和模型的時效性,從而良好保障了業務效果。以微博Feed信息流爲例,基於對內容數據的充分理解和對用戶畫像的精確刻畫,利用大規模機器學習模型排序能夠有效控制大量低質內容,深入挖掘出用戶感興趣的個性化內容,從而改善微博Feed信息流的用戶體驗。

此外,微博特別設立的機器學習實驗室也在深入研究人工智能技術潛在的應用價值。“追蹤前沿技術,保持技術領先;落地微博業務,體現技術價值”,這是微博機器學習實驗室的初衷和使命,其主要的研究方案包括機器學習算法、推薦算法、自然語言理解、計算機視覺、語音識別、機器學習系統、分佈式計算系統、高性能計算系統、大數據技術等。黃波提到,目前在大規模機器學習排序算法、深度學習排序、深度學習推薦、文本處理、圖片識別、機器學習平臺、深度學習平臺等方面都已經取得了不錯的進展,特別是微博大規模機器學習排序算法在微博Feed信息流、熱門微博中的應用和全量上線,取得了顯著的效果。

返璞歸真,技術落地創造實踐價值

時下的社交媒體大趨勢,都在致力於通過大數據、人工智能來更全面地瞭解用戶畫像、更深刻地理解內容、更細緻地結合業務場景,從而提高信息分發效率,爲用戶提供更好的內容消費體驗。

微博實踐表明,人工智能技術能夠更好地促進產品和業務的發展。在微博,大數據、人工智能等新興技術廣泛地應用到微博Feed信息流、熱門微博、Push消息推送、圖片推薦、反垃圾等業務中,並取得了不俗的效果。產品和業務目標的理解是基礎,在目標理解的基礎上再將產品場景、業務目標、用戶行爲、內容數據等數據化。數據化之後,技術人員利用大數據策略、機器學習模型等方法擬合或逼近業務數據目標,這個過程通常需要藉助大規模分佈式計算和高性能計算來迭代逼近。同時也要求儘可能早地將這些策略或模型灰度上線到線上系統中,便於收集灰度測試數據,對比評估業務線上效果。數據化是指產品全流程的數據化,包括機器學習模型上線灰度對比的數據,用數據來說明效果。

在本次雲棲大會上,黃波將分享微博機器學習平臺、深度學習平臺的架構和實踐,介紹其在微博信息流產品中的實戰解讀,同時介紹平臺搭建中的經驗教訓,向業界分享微博在機器學習和深度學習方面的最新進展。同時,黃波也希望可以藉助這次機會和業界深入交流,獲得更多業界經驗來完善內部系統及平臺,更好地爲微博業務服務。(購票請戳這裏!

發佈了166 篇原創文章 · 獲贊 7 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章