用AI幫你找工作,領英是如何做的?

領英人工智能研發總監 張樑

11 月 8-9 日,CSDN 和 AICamp 聯合舉辦的AI開發者大會在京舉行。領英(LinkedIn)人工智能研發總監張樑發表了《AI 在大規模招聘求職上的應用》的主題演講,並接受了 AI科技大本營的專訪。

張樑在分享中表示,人工智能於領英而言是氧氣般的存在,是所有用戶體驗的 DNA,貫穿其社交聯繫、職位推薦、智能問答等多個應用。

目前,領英在全球已有 5 億 9000 萬用戶,其中中國用戶 4400 萬,如何利用大數據和人工智能技術來爲數億的求職者和招聘者提供高效服務?這篇文章將爲你揭祕。

張樑演講

作爲在領英工作六年的開發者和程序員,今天我想和大家分享領英這一全球最大的職場社交平臺在世界做了什麼,在中國做了什麼,以及人工智能技術在領英如何被應用,我們是如何通過人工智能來解決諸多問題的。

目前,領英在全球有 5 億 9000 萬用戶、3000 萬家公司、2000 萬個工作,這是領英的全球經濟圖譜。領英致力於連接全球職場人士,並協助他們事半功倍,發揮所長。我們希望連接全世界的同行,爲他們提供更多的職業發展機會。

在中國,我們有 4400 萬用戶,領英中國的商業和各方面都發展得非常迅速。

人工智能——領英的“氧氣”

人工智能是領英所有用戶體驗的 DNA,它就像是領英的氧氣,是我們一切工作的驅動力,我們將人工智能技術應用到了領英所有的產品中。在恰當的時間、恰當的地點給恰當的用戶推薦恰當的內容,這是領英人工智能研發部門的使命。

我們很多產品都深入地應用了人工智能,比如你所認識的人、我們主頁上的內容、職位推薦、搜索、爲招聘專員和銷售專員專門定製的產品……

目前,每天領英平臺上被處理的數據達到了 2PB 的規模,領英的機器學習模型動輒擁有上十億甚至上百億個參數,每個星期都會有上百個 AB 在線測試在運行,由此可見,領英 AI 體量是非常龐大的。那麼如何在這樣一個大規模的計算平臺上、在幾百毫秒延遲的範圍內,提升用戶的使用體驗呢?這是一個很大的挑戰。

領英的職位推薦系統

職位推薦是領英的主打產品。那麼在這方面,我們是如何應用人工智能來解決具體的技術問題呢?

用戶在領英上傳個人簡歷,平臺會推薦適合求職者的工作職位,但首先,領英需要了解你的背景,從哪個學校畢業,在哪些公司工作過,擁有哪些技能……根據以上,我們可以預測哪些工作可能比較適合求職者。領英做的第一步是建立知識圖譜和研發針對自然語言的標準化技術。我們針對每位用戶的簡歷,使用基於深度學習模型的標準化技術來實現信息抓取,比如 LSTM, CNN 等等。對於工作職位,我們也做了同樣的事情。

六七年前,我們的職位推薦一開始做的是做線性模型,比如說求職者是一個軟件工程師,我們就會推薦一個軟件工程師的職位。但後來我們發現,根據用戶簡歷和工作職位的描述來做推薦,不一定能夠完全實現個性化,我們還希望根據用戶之前的職位申請,爲他推薦更多類似的職位,我們將其稱之爲深度的個性化。我們因而研發了 Generalized Linear Mixed Model(GLMix),針對每個用戶和每個職位建立一個單獨爲他們服務的模型,這樣使得我們模型的參數量達到了上百億的規模。同時也成功地把職位申請的數量提高了 30%。領英中國團隊把這個模型用在中國的數據上,又將職位申請的數量額外提高了 11%。

進一步地,我們建立了一個 Deep&Wide 的模型,其中整合了深度學習,樹狀結構模型,以及 GLMix,我們發現這個模型的效果非常好,也極大地提升了領英的用戶體驗。爲了實時更新上百億的模型參數以及在毫秒級別內滿足用戶的職位推薦需求,領英搭建了大規模運算平臺來實現人工智能模型的技術。這個平臺包括線下和線上兩個模塊:線下模塊自動收集用戶的反饋、基於 Spark 自動訓練,之後把模型結果和參數上傳到線上。線上我們使用自己的實時數據傳輸和搜索引擎技術來實現低延遲的模型運算。並且,領英專門研發了一個叫做 Pro-ML 的“人工智能自動化”系統,爲所有工程團隊集中管理特徵和機器學習模型。這一系統爲機器學習模型的整個開發、培訓、部署、測試提供單一化平臺,已經極大加快了領英開發及上線新產品的速度。

我們在職位推薦方面也遇到過一些有意思的問題。下圖說的是一個邊際收益遞減的例子,比如我是一個招聘專員,剛剛發佈了一個工作到網上,那麼我收到的第一份申請是最有價值的,因爲我之前一個申請都沒有收到。但等到第 100 個人申請的時候,這個邊際價值就不一定比以前多了,因爲 100 到 101 和從 0 到 1 完全不是一回事。等到有上萬個工作申請的時候,可能反饋就是,我們不小心收了 1 萬份簡歷,我們看不過來,可能最後也就能看前 100 個。

這時就體現了一個問題,我們不應只從求職者的角度去考慮問題,也要考慮招聘者的思維。因爲招聘的成功率體現了平臺的價值,如果現在這個平臺上面有幾千萬個工作,可能 1% 的工作是 Google,Facebook,百度,小米,京東這些最知名的公司,他們收的簡歷數量非常大,但也有一些公司收集的簡歷可能沒有那麼多,或者完全沒有,那麼這個平臺價值對他們就沒有體現出來。爲什麼沒有體現出來呢?因爲我們這個平臺的目的是爲了服務全世界所有的公司,是希望所有的人能夠找到他們合適的工作。並且,對於這些大公司來說,每個職位發出去,收到的上萬個簡歷中可能只能有時間看前 100 個,這也是浪費社會資源的一種表現。

所以在領英的平臺上做職位推薦,我們有幾點要注意:第一,我們要保證每個人都能找到適合的工作,第二,我們要保證每一份工作不會收到太多、或太少的申請,我們要從整個產品的體驗以及整個平臺的效率去考慮這個問題。

在經濟學上,這是一個市場效率優化的問題。這個市場有三方角色,第一方是找工作的,申請越多機會相對來說就會越大;第二方是招聘專員,他們希望每一個工作職位發出去,有足夠多的人申請,但也不能太氾濫,最好是人選恰好就是想找的那一位;第三方就是領英這個平臺,這個平臺想要通過這個職位推薦的市場得到收入。那麼如何把這三方的利益綜合起來考慮,達到市場效率的最優化,建立市場長期發展的生態,這本身就是一個很難的問題,這也是我們這一兩年內一直在做的事情。

我們在 2016 年的 KDD 有一篇論文,談的就是如何平衡這三方需求。我們可以做到在不影響用戶體驗的前提下,讓工作職位的申請數量更加均勻。如果用熵(entropy)來度量每個職位申請數量的均勻度的話,這個方法使得熵增加了 12%。

領英在智能問答領域的探索

智能問答在領英有很多可能的應用。比如剛纔招聘這個案例,就可以做一個智能問答系統:求職者來讓我推薦工作,招聘方想了解適合某一職位在某一地區符合資格的人數,這些都是很有價值的問題,我們希望將來能夠有這樣一個智能問答系統,可以服務於領英平臺上的所有用戶。

原則上,智能問答系統的開發通常分爲四步:第一,首先要做自然語言的處理;第二,對於對話實時信息的跟蹤;第三,根據現在已知的信息和對具體問題的理解,能夠知道下一步要做什麼;第四,根據下一步要做的,將它轉換成自然語言,給出一個回答。

在領英公司的內部,每天會很多人來問數據科學家關於領英數據的問題,爲了讓這一過程更加自動化,同時減輕數據科學家們的負擔,我們希望通過製造一個機器人來自動回答這樣的問題。我們給這個機器人取名叫做安娜(Analytics Bot)。

Ana 現在的主要功能有兩個,第一是回答關於某個具體數據指標的定義。比如,領英內部有一個數據指標叫 contributor,即每天主頁上有多少人分享,多少人評論等等,如果用戶問 contributor 是什麼,Ana 就能夠給出回答。第二個功能是某個數據指標在某幾個維度上的數值。比如領英主頁過去 7 天有多少中國用戶訪問,Ana 就會把這個問題自動轉化爲 SQL 的語句來查詢我們內部的數據庫,然後給出答案。

領英中國

領英中國目前有 4400 萬用戶,在領英全球近 6 億用戶中佔了很大比重。領英中國很重要的一個使命就是,希望能夠通過我們這個全球最大的職場社交網絡,將職場人士,例如中國的 AI 開發者和全球的 AI 開發者聯繫起來,我們一直致力於實現這個宏偉的使命和願景。

另外,在中國北京和美國硅谷的 Sunnyvale,領英有一個 60 人的國際研發團隊,這個團隊有 20 餘名成員常駐硅谷,實時分享總部最新產品計劃和資源,有超過 40 名成員常駐北京,專攻適合本地會員的產品與服務。這兩地團隊的工作無縫銜接,交換互通,保證在緊跟全球最新技術趨勢的同時,高效實現產品本地化。

值得強調的是,在領英,我們有四分之一的工程師是女性,我們非常重視多元、包容、歸屬感,這個本身也是領英的一大特色和優勢。我們鼓勵員工平衡工作和生活,將優秀的工程師文化和前沿的全球視角帶入國內;我們支持員工學習和深造,通過主辦Learning InDay 等企業文化活動,鼓勵員工提升更廣泛的技能、開拓更廣闊的自我發展空間。

張樑專訪

AI科技大本營:您目前在領英主要負責什麼業務?可以簡單介紹一下您目前的工作內容嗎?

張樑:目前,我擔任領英主頁搜索業務負責人和領英人工智能研發總監。在過去的 6 年中,我負責研發了公司諸多重要的人工智能項目,主要聚焦於將尖端人工智能技術大規模地應用在面向用戶的互聯網產品中,努力提升領英全球超過 5.9 億會員的使用體驗。

此外,我的工作還涵蓋了領英衆多關鍵產品的用戶體驗優化,包括廣告、搜索、主頁、工作推薦、電郵及短信推送。

AI科技大本營:領英的人工智能技術體系是怎樣搭建的?如何保證高效、敏捷的研發?

張樑:領英正在建立一個“人工智能自動化”體系,通過該體系可以管理公司每一個組的功能和模型。具體來說,每個人工智能系統都只可利用特定類型的數據,這種限制是由模型中內置的 "功能" 所決定的。這些功能描述了我們認爲可能有助於提出更好建議的各種信息。例如,你的職位頭銜可以作爲一個特徵,利用它來匹配未來的新工作機會。我們的專家和A/B測試框架教給人工智能系統如何使用這些特徵,根據已有數據來推送更適合的推薦信息,例如使用“實習生”職位的用戶更關注初級開發工程師信息,而非高級開發工程師。這項工作非常耗時。

在領英,我們爲多項產品開發了數百個模型及數十萬個特徵。我們由此建立了名爲 Pro-ML 的“人工智能自動化”平臺,通過單獨一個系統爲所有工程團隊集中管理特徵和機器學習模型。這一系統爲機器學習模型的整個開發、培訓、部署、測試提供單一化平臺,加快領英開發及上線新產品的速度。

AI科技大本營:人才解決方案、營銷解決方案、高級用戶訂閱……目前領英的核心產品中,人工智能在其中分別有哪些應用?

張樑:在領英,人工智能就像是氧氣,存在於我們構建的每一款產品、我們平臺的每一種體驗中。

我們並非隨機選擇在某項功能中使用人工智能,而是從整個平臺的角度來考量如何佈局。這樣不僅會保證規範化,更能提供整體連貫的人工智能體驗。

在領英,人工智能隨處可見,人工智能正在逐步滲透到用戶體驗的方方面面。人工智能幫助個人用戶建立社交聯繫、求職、學習,幫助企業用戶提升廣告效果、精準招人。

一些公司將人工智能視作對特定經驗的優化,而領英則在產品設計之初便引入了人工智能和機器學習專家,領英計劃未來將人工智能應用到更多體系中。

人工智能在領英上的具體應用非常廣泛,比如:

社交聯繫:領英推薦用戶與相關適合的人建立聯繫,這個是基於“您可能認識的人”(People You May Know)這一功能,純機器主導的建議幫助用戶對接適合的聯繫人。

內容推送:利用人工智能給用戶推送與其相關、對其有用的內容;人工智能使領英上文章推送的數量增加了10%-20%;藉助機器學習,運用大規模線性程序減少用戶收到無用郵件和通知的數量。

廣告投放:利用人工智能將廣告投放給最相關的用戶,通過分析會員的喜好、點擊和訪問活動等屬性找到適合的人羣,提高銷售的投資回報率;通過人工智能爲銷售人員擴大目標受衆數量,找到更多擁有類似背景的目標對象。

招聘:招聘人員在爲某一特定職位尋找候選人時,收到的站內推薦都是基於人工智能和機器學習產生;通過人工智能改善產品功能,使得HR在招聘時收到的站內信回覆比率提高了45%。

求職:利用人工智能提升“可能感興趣的工作”(Jobs You May Be Interested In)這一功能的個性化程度,使得領英上用戶工作申請的數量提升了 30%;用戶在申請工作的過程中缺少某種對應技能,領英會向用戶推薦最合適的學習課程,這裏涉及的搜索和推薦功能很大程度上依賴人工智能;利用層次貝葉斯模型推斷薪酬。

AI科技大本營:在人工智能領域,領英與哪些企業開展過合作?

張樑:我們和世界上很多著名的科技公司都開展過合作。例如,我們將著名的數據推送系統 Kafka 作爲管理領英所有信息的“中央神經系統”。在深度學習流程中廣泛地使用了谷歌打造的 TensorFlow。我們在數據處理中廣泛使用 Spark 和 Scala,在數據分析中使用 Pig 和 Hive。我們還與微軟開展合作,從而利用 Azure 雲平臺上的人工智能服務。領英會採用微軟文本分析 API 對推送內容進行動態翻譯。

AI科技大本營:領英的人工智能應用收穫了哪些成效?

張樑:領英的人工智能系統爲那些正在找工作的會員提供了極大的幫助。自領英上線了一個新的爲會員推送“可能感興趣的職位”的個性化人工智能模型之後,工作職位申請數量隨之增長了 30%。

領英同時爲會員和招聘專員提供了很多人工智能技術驅動下的用戶體驗優化和產品更新,從而使工作職位申請量實現了 40% 的年度增長。

通過利用人工智能改進的領英招聘解決方案已經使招聘站內信的回覆率提高了 45%,同時還減少了我們向會員短信推送的數量。

人工智能成功地優化了領英主頁上會員的文章閱讀體驗,文章的點擊率提高了 10% - 20%。

AI科技大本營:領英是如何管理海量數據,並從中挖掘價值的?

張樑:在領英,我們擁有高度結構化的數據集,這是我們的優勢所在。

我們將數據應用於:爲用戶推薦新技能、新培訓課程和新職位;協助招聘人員找到合適的人選;讓求職者找到合適的工作;推薦精準的廣告;向用戶推送他們感興趣的消息和內容。

具體來看,我們應用超過 10 億個數據點(職位、技能、公司、會員等等)來構建領英知識圖譜。這些圖譜中形成超過 500 億個關係紐帶,我們以此來開發相應的推薦系統。這些標準化數據在領英模型和產品中得到應用,爲客戶和會員定製他們每一步的使用體驗。(從“您可能感興趣的招聘”、“招聘者”到爲會員推薦信息流內容)。

此外,數據將助力公司願景的實現:我們使用這些數據來構造我們的“經濟圖譜”——即人、技能和職位之間的聯繫。

我們與處理類似問題的其他公司的區別在於,我們採用“會員爲先”的人工智能算法;一般公司將人工智能視爲對現有體驗的優化。但我們在最初的產品設計過程中就讓人工智能和機器學習專家參與進來。

沒有很多公司從會員所觀所感的方方面面去考慮問題,而在領英,我們希望通過人工智能,爲會員在領英上的所有互動提供個性化體驗,而不是僅考慮某一刻TA的互動操作。這在複雜系統設計中經常會被忽略,最終很可能僅僅優化了本地操作,而不是全球性的優化。

AI科技大本營:大數據、機器學習在領英都有哪些應用?如何做到真正的數據驅動?

張樑:我們已經進入了大數據時代,利用人工智能對數據加以分析得到對環境和業務全面的洞察,引發新一輪產業革命。領英始終致力於利用人工智能、機器學習等新科技,對數據加以研究和測算,爲個人會員、企業客戶和社會提供洞察,最終實現領英的願景:爲全球 30 億勞動力的每一位創造經濟機會。

人工智能有各種分支,機器學習是其中之一,還包括搜索、本體管理和創建、常識和推論、模式識別、統計推斷等。我們使用機器學習作爲解決一系列問題的工具。

深度學習是機器學習的一個流行分支,它使用人工神經網絡來解決問題。領英採用多種方式應用深度學習和神經網絡。

舉例來說,我們將這兩種工具配合線性文本分類器一起使用,在信息流創建之初便檢測其中的垃圾郵件或惡意內容;我們還使用神經網絡來幫助理解領英上被分享的各種內容(從新聞報道、職位到在線課程),以便爲會員和客戶提供更精準的推薦和搜索產品;最近,我們使用了“序列到序列學習”這一複雜的深度學習方法,進一步優化會員體驗,例如顯示相關搜索項,以及對領英上留言的智能回覆等。

AI科技大本營:很多人認爲人工智能是不需要人力投入的自動化流程,真的是這樣嗎?

張樑:實際上並非如此。我們人工智能系統中所使用的非常多的數據,以及人工智能系統的部署方式都依賴於人力的投入。以領英檔案數據爲例,幾乎所有會員數據都是由會員自己自行輸入的。因此,同一個職位在一家公司可能稱爲“資深軟件工程師”,而在另一家公司則稱爲“研發負責人”。彙總上百萬份會員檔案後,你會發現,在職位名稱錯綜複雜的情況下爲招聘者提供良好的搜索體驗是一件極具挑戰的事情。將數據標準化成人工智能系統可以理解的形式是打造良好搜索體驗非常重要的第一步,而這一過程需要人工和機器的共同努力。

我們的分類學家創建了職位分類體系,然後採用機器學習模型(LSTM 模型、其他神經網絡等等)進一步將大量職位進行關聯。瞭解這些關聯後,我們就可以進一步推斷出每名會員在檔案內容之外具備的深層次技能;例如,具有“機器學習”技能的會員同時也瞭解“人工智能”。這就是構建領英知識圖譜分類和關聯體系的一個實例。從這裏可以看出,我們的人工智能方法既不是徹底的機器驅動,也不是徹底的人工驅動,而是二者的結合。我們認爲,機器和人工密切協作纔是最好的解決方案。

AI科技大本營:您認爲領英人工智能的未來發展方向在哪裏?

張樑:爲全球 30 億勞動力中的每一位都創造經濟機會”這是領英的願景,也暗含了領英人工智能的未來發展方向。領英利用數據來實現這一願景,我們正在利用人工智能分析各種數據趨勢、與各大研究機構合作獲取匿名數據進行分析,希望能夠了解數據規律,不斷提升信息的利用效率,從而擴大全球就業機會。

我相信,未來人工智能這一重要工具將極大地提高人類在面臨重大問題時的能力,並且長遠來看,它將協助實現人類經濟成果的轉型。人工智能將極大促進人類使用資源的能力,從而提高世界的整體效率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章