數據科學家在“新常態”下發生了怎樣的轉變?

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

在疫情“新常態”下,職場人獲取專業人脈關係的難度加大,社會不平等帶來的挑戰也隨之加劇。爲了幫助更多公司打造公平的產品,領英在近期開源了Project Every Member項目裏有關Apache Spark的一段代碼,能讓數據科學家們準確地衡量產品帶來的不公平影響,縮小由於人脈等資源帶來的差距,確保每個人都能夠獲得公平地去發現和連接機會。

而這只是領英數據科學家工作的“冰山一角”。數據科學並不算是一個全新的領域,統計學家John W. Tukey已經在50多年前在學術界展開數據分析。但自從2008年DJ Patil在領英提出“數據科學家”這個名詞時,數據科學家才真正地作爲職業開始起步,逐漸成爲“21世紀最性感的職業”。目前,數據科學家依舊在蓬勃發展並開始取代傳統角色。據領英《2020年新興工作報告》顯示,過去5年招聘需求增速最快的職業中,數據科學家位列第三。

在數據的總量完成了史無前例的增長、新基建等政策不斷加持的今天,我們已經正式進入了一個“數據密集型”的時代,數據科學家的定位也在不斷產生改變。在LinkedIn(領英)全球數據科學負責人許亞看來,“數據科學團隊的整體趨勢更加走向專業化,他們的職責不再是建立數據基礎設施或平臺,而是去使用數據科學和工程來最大化數據的價值。” 那麼從團隊運作方式、商業影響力設定和社會責任等角度,數據科學家的工作發生了怎樣的轉變?如何讓數據的價值最大化?

數據科學團隊更加“工程化”和“專業化”

在早期的時候,在數據科學領域工作的人都是“萬能手”,能身兼多個任務,比如建立基礎設施、研發數據儲存方式、編寫算法等等。隨着這個領域越來越成熟,數據量越來越大,許亞認爲數據團隊需要變得更加工程化和專業化,並通過“嵌入式工作”和“中心化管理”,去應對幾十萬、幾千萬的用戶增長。

許亞介紹,目前領英的數據科學團隊分離出了底層架構人員,根據不同的專業領域設立了三個工作方向,包括可以很有效地建立起數據管道(Data Pipeline) 和數據流 (Data Flow)的工程專家;負責進行A/B 測試、預測、打造差分隱私的算法專家:以及有很強的業務屬性,將數據見解和公司戰略結合起來的業務專家。這三個領域的人才擁有不同的發展方向,但都在團隊裏擁有舉足輕重的地位。

在公司架構上,爲了做到最大化數據價值,領英的數據科學團隊成員由許亞的中心部門統籌,但在項目工作上,數據科學家們會在工位分佈和職能上與產品、市場等團隊建立起緊密的“嵌入式工作”模式,推動產品的優化以及市場戰略決策。例如領英的信息流團隊由很多來自不同部門的人組成,包括Feed工程師,應用工程師,產品經理,數據科學家……這些人彙報給各自的部門,但是工作上是共同協作,讓整個項目運轉得更加高效。

除了產品,領英還會通過數據科學來優化公司基礎設施的運行和維護。領英每年投資數百萬在數據儲存空間等硬件設施上面,怎樣充分利用這些硬件設施是意義重大的問題。領英的數據科學團隊會通過數據分析和算法去衡量工程架構的建設是否有效率,更好地做時間規劃,讓硬件和GPU發揮更大的價值,有助於提升公司整體的效率。

數據科學團隊成功的三要素

由於不同的數據科學家可能會有不同的側重方向,比如產品、市場,或者工程,工作的KPI有時候難以進行標準和量化。許亞接手領英數據團隊之後,做的第一件事情就是建立了三個成功的衡量指標,到現在都是合理有效的:

一是工作效率和數據易得性。以前的數據科學家特別喜歡嘗試最新最難的問題,但沒有維護和迭代習慣。現在許亞認爲,如果建立了一些衡量標準、數據模型或者算法,就應該確保它一直可使用。許亞也鼓勵數據科學家們減少重複性工作,並提供自動化的工具和平臺,讓每個數據科學家都能更有效率地去挖掘數據價值。

二是戰略化思維。數據科學團隊在公司裏的職責之一是用數據去指導、指引公司的一些策略方向,甚至和公司的高層直接溝通。許亞認爲在疫情後,用戶的行爲多少會發生一些不可逆轉的改變,數據可以幫助團隊更好地去學習用戶行爲變化,瞭解用戶是如何在領英上獲得價值,從而在戰略上指引公司對哪些領域進行重點投資。

三是直接商業影響。數據團隊的成果是跟這個公司的淨利潤是有直接作用的,數據科學家需要去衡量他們的工作怎麼樣去影響公司的淨利潤,如何對公司的商業目標產生積極影響。

應用:最佳產品優化利器A/B 測試

A/B 測試是數據驅動的常見產品功能優化手段,將用戶分爲對照組和實驗組,對照組使用現有的功能,實驗組測試新功能,從而判斷新功能是否應該上線。許亞介紹,在領英,基本上你可以看得到的任何產品改變,都是經過反覆A/B 測試產生的,比如搜索欄、搜索算法、導航欄,甚至是APP的字號和字體。所以領英不選擇用直覺來進行假設,而是用A/B 測試來判斷到底大衆喜不喜歡新推出的產品功能,讓一切都通過數據來說話。

image


一個產品開發生命週期內A/B測試的示例

例如在使用APP的過程中展示的頁面內容數量就涉及到產品的平衡與取捨。每次加載可以展示20個、30個、也可以100個內容在頁面上,但展示的數據越多,加載的時間就越長,用戶上下滑動App時就需要等候;展示的數據越少,用戶就需要頻繁刷新,影響到用戶體驗。所以領英數據團隊會根據A/B測試來決定到底是應該放多少個。

另外,領英要不要建立或者關閉一個數據中心也通過A/B 測試決定,因爲用戶和數據中心的距離對於傳輸速度有很大的關係,選擇不同的數據中心對於用戶的請求的處理有很大的影響。

A/B 測試也並不是僅由數據科學團隊來主導的,不同的團隊在決定是否做A/B 測試的過程也同樣激發了大量的創新。許亞解釋道,領英每天大概有100個新的試驗進行,數據科學團隊沒有精力去參加公司的所有試驗項目,會更加投入在重要的試驗研究和分析上。藉助公司提供的自動化工具和A/B 測試平臺,其他團隊可以解決大部分的實驗設計、應用、分析上的問題,從而自主地產生創新的想法,並通過A/B 測試來確認是否正確,避免一些主觀爭議。這樣科學的決策機制、開放的實驗文化和數據文化,讓公司裏的每個團隊都能放心大膽地去構想並且驗證創新的想法。

新的挑戰:保證公平和用戶數據隱私

當技術手段和基礎設施從數據中挖掘出更多的價值之時,也帶來了全新的挑戰與問題:

一是公平性。公平很難有一個準確的定義,但領英的願景是爲全球勞動市場裏的每一位創造經濟機會,希望有着同樣才能的兩個人應該獲得相等的機會。爲了實現這一點,領英在開發產品和功能的時候會很重視可量化的指標,確保領英的產品對於每個用戶羣體都會帶來積極的影響。如果只看平均下來的效果,可能會只對一部分人有益,而給另一部分人帶來不公平的因素。

image


領英是如何構建“公平”的

因此,領英對每一個新推出的產品都會進行A/B 測試,儘量減少不公平帶來的結果,並使用一個經濟學裏常用的指數Atkinson Index,去衡量每一個產品裏是否有無意識的不公平或者偏見。“促進公平的重點不僅僅在於算法,而在於產品設計的方方面面。”許亞說。

“我們也經常去評估現在的平臺上面是否有一些導致不公平的漏洞。比如說招聘者用我們的產品去招人,搜索的結果下面出來的都是男性,這會導致女性失去了這個工作機會。所以大概一年前的時候,我們推出了Representative Ranking,通過機器學習模型對候選集進行重新排序,使搜索結果能夠代表所有的潛在候選人,以確保減少偏見,獲得多樣化的人才。”

二是數據隱私安全。對於公司來說,沒有用戶的信任,就沒辦法實現願景和使命。許亞介紹,遠在GDPR開始實施之前,保護用戶的隱私就是領英文化的一部分。大家都是非常重視隱私,也非常主動地用前沿技術去保護用戶隱私,比如現在認爲是數據隱私保護的理想方法——差分隱私。

image


差分隱私技術

差分隱私是一種保證。假設你的信息在這一堆數據裏面,如果把這些信息刪掉,再運行同樣的一些算法,從數據當中得到的兩個的結果都是一樣的。相當於你的數據在或者不在這個數據庫裏面,最後對於得到的信息沒有影響。這樣用戶就不需要擔心他們的數據隱私被泄露。

領英三年前就開始針對數據隱私問題進行一些重要的研究,同時也有一些比較成功的應用,例如最近一個針對廣告商的產品,客戶想要用領英的API去獲得一些信息,比如用戶互動量前十的文章,像這樣一些集合的信息,領英也用差分隱私去確保用戶的信息不泄露。

近兩年來,領英的數據科學團隊迅速發展併成熟,人數規模擴張了一倍,從150人增加到了300多人,遍佈世界各地。在中國,領英同樣有一支精良的數據科學團隊,作爲中國市場的專家,藉助全球的數據資源和工具,幫助公司更好地服務本地市場。在疫情帶來的不確定之下,大家越來越意識到了數據的重要性。而領英的數據驅動的文化讓公司的每個人都能夠在自己日常的工作中運用到數據科學,並且瞭解自己做到的改變是如何通過領英平臺爲更多用戶帶來價值的。許亞認爲,在這個過程中,你可以感受這種最大化數據價值的強大能力,感受到數據的責任所在,這也是數據科學家這份工作最有意義的地方。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-10
本文作者:許亞
本文來自:“CSDN”,瞭解相關信息可以關注“CSDN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章