招聘數據科學家指南

本文簡要概述了新興數據科學家類型及其獨特的技能組合,以及希望僱傭他們的第一批數據科學家或建立數據科學團隊的人力資源專業人員和分析經理的指南。其中包括每種類型技能的概述以及可以要求評估候選人的具體問題。

數據科學是一個新興領域,角色和資格目前尚不明確。考慮到該領域的晦澀以及尋求聘請數據科學家或數據科學家團隊的公司可能缺乏分析專業知識,建立分析團隊或僱用公司的第一位數據科學家的任務可能令人生畏。但是,通過簡要概述數據科學家類型和評估每種類型的示例問題,招聘經理可以爲招聘人員提供更具針對性的個人資料,並更好地評估候選人可能需要的技能來填補這一角色。

數據科學家通常擁有3個主要領域的技能:數學/統計/機器學習,編碼/軟件工程以及他們尋求就業的行業專業知識(見下圖)。大多數成熟的數據科學家在這3個領域中的2個領域擁有強大的技能,產生軟件/數學人員(通常在科技公司或生產角色中找到),數學/領域人員(更多的是傳統統計學家或科學研究人員)或軟件/ domain(不太常見,但通常涉及數據管道和商業智能角色)。在所有3個領域都具有強大技能的人都是所謂的“獨角獸”,他們通常是在所有3個領域發展專業知識的職業生涯晚期或顧問。除了這些技能,

聘請合適的候選人擔任他/她將在公司內部扮演的角色可以通zhaop熟數據科學家類型中的一種來簡化,隨後的職位描述/面試問題可以針對該類型的角色進行定製。通過將2或3位數據科學家與免費技能配對,可以建立一個有效的數據科學團隊,而無需大量預算。

數學/軟件優勢(類型1)在科技公司或新算法或數據框架可以生產的位置很常見,而不考慮行業的細微差別,數據類型或行業規則(例如教育,醫療保健,金融,生物技術/製藥)。這些人可能會創建一個新版本的PageRank,爲公司開發一個新的應用程序,或者生成新的算法和BI結果。技能包括多種編程語言(Python,R,甚至可能是C ++或Java),大數據框架(Hadoop,Spark,NoSQL ......),算法設計和軟件開發(計算機科學課程或學位,敏捷/瀑布軟件生命週期)的混合,以及一些數學或機器學習的高級培訓(可能是該領域的學位)。教育的角度來看,

評估類型1候選者的問題可能涉及分佈式計算框架(MapReduce用於算法設計的步驟,知道哪些算法在分佈式計算中運行良好),數據庫設計(關係與非關係與Neo4j,實時捕獲和部署)模型,自動錶更新),分析管道的創建(特別是在Python中),以及機器學習知識的深度(用於創建隨機森林模型的數學概念,隨機森林與增強迴歸的數學差異和實施考慮因素,瞭解深度學習框架之間的差異......)。

數學/領域數據科學家(類型2)通常在教育,生物技術/基因組學,醫療保健,保險等專業領域內工作......行業受到監管,生物學,心理學,精算科學等知識可以幫助構建相關問題併爲分析提供信息公司內部的做法,特別是在聯邦指導方針和最佳研究實踐方面。大型公司也發現了第2類數據科學家,以協助營銷,銷售,財務和其他與業務相關的問題。技能包括深入的數學和機器學習專業知識(通常是研究生水平的知識/教育),研究設計/研究實踐(抽樣實踐,權力分析,因變量類型,科學出版物......),領域專業知識(該領域或行業的學位)經驗),以及該行業所使用的軟件的實質性知識(SAS,R,Python,Matlab ......)。這些人最有可能擁有博士學位(可能是學術界的職業轉換者)或擁有大量已發表研究的數學/統計學碩士學位。

評估2型候選人的一些問題將是特定領域的(例如基因組學問題/基因組學公司的PLINK編碼練習),其他問題將集中在研究設計(偏見,A / B測試或控制/實驗設計,動力分析和過度動力樣本的後果...),統計分析(貝葉斯概率,廣義線性建模和因變量,時間序列預測)和機器學習(解釋不同集合技術的數學方式,就像你對小學生一樣,解釋懲罰迴歸模型,當它們有用時,解釋樣本大小如何影響算法選擇和性能......)。

軟件/域人員(類型3)在數據科學家在專業領域內推動數據收集,數據管理和應用程序開發的位置非常有用。他們通常擁有自己的行業經驗,可能擁有或可能沒有與該行業相關的學位,具有豐富的編碼專業知識。在商業領域,Type 3人往往具有技術背景和MBA,並且通常最終領導技術團隊或管理分析部門。技能包括數據庫設計/數據捕獲(SQL,Hadoop,設計原則),軟件開發(scrum,敏捷/瀑布生命週期),編程(SAS,Python,Java,C ++通用)和領域知識(生物技術法規,開發/文檔)工業要求)。

評估類型3候選者的問題可能包括數據庫設計原則(外鍵,可執行文件......),行業特定問題(例如,將PLINK與基因組學中的其餘管道集成或與本體結構一起使用),以及MapReduce /分佈式計算系統(與應用程序設計或管道瓶頸相關......)。

所有候選人都應該表現出分析數據並在沒有分析背景的情況下向其他分析人員或領導者展示結果的能力和舒適度,因爲這是數據科學家的基本功能,而數據科學候選人應該在軟件或數學方面具有足夠的知識,以便與之合作那些讚美他們特定技能的人,因爲現在大多數公司都組建了一支具有不同專業知識的小型分析團隊,以涵蓋所有數據科學。

作爲最後的思想和資源指南,我提供了一個問題庫,其中包括我最喜歡的幾個評估潛在數據科學家(涵蓋各種數據科學家類型)的問題:

  1. 解釋隨機森林的數學基礎並推動迴歸,比較和對比他們的公式以及計算實施問題。

  2. 問一些與條件概率和貝葉斯定理有關的東西。

  3. 討論您閱讀的最後一本機器學習/計算機科學論文,以及如何向您五歲的侄女解釋它。

  4. 給出一個假設的數據集(與您公司以前的項目相關),並詢問可能的分析方法(或者給他們提供數據和幾天的分析)。

  5. 詢問MapReduce或相關的計算框架(R,Python,Hadoop ......),他們可能會在這個位置使用它們。

  6. 解釋一個p值。

  7. 解釋多樣性如何減少集合方法中的誤差和偏差。

  8. 指出並解釋3種不同的降維策略。

  9. 如果將在該位置使用網絡分析:解釋PageRank背後的數學運算以及一般情況下線性代數如何用於圖形/網絡問題。

  10. 您如何使用這個房間裏的物品向幼兒園兒童解釋(機器學習算法或軟件設計)?

  11. 詳細解釋拓撲/幾何對統計和機器學習領域的貢獻。

  12. 包括批判性思維/ IQ有關的項目或兩個(特別是來自這個問題銀行:HTTP :// WWW iflscience 的COM / / 證明- - 智慧- - - 世界- 最短- 智商- 測試)。

  13. 解釋您對軟件開發生命週期的偏好,並舉例說明您從以前的職位中學到的最佳實踐。

  14. 您將如何設置A / B測試?您如何控制誤差?爲什麼測試需要一個控制組?

  15. 詢問行業特定的內容(法規,數據類型,領域知識)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章