Analyzing the Analyzers 分析分析師 —— 數據科學部門如何建

很多牛逼的公司都宣稱在建立數據科學部門,這個部門該如何組建,大家都在摸石頭過河。

O‘reilly Strata今年 六月份發佈了報告 《Analyzing the Analyzers》,比較清晰的闡述了數據科學部門所需要的不同角色及其技能。重點內容翻譯如下:

數據科學家的分類研究方法

自我認識

請被調查者用常用的5級標準(從完全同意到完全不同意)來回答 “我覺得自己是一個XX” 這樣的問題,能夠獲得數據科學家的自我認識結果。調查結果將數據科學家分爲以下四類:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。


技能需求

請被調查者對數據科學家所需的以下22項技能進行排序,分析不同類型的數據科學家的技能要求。其中的ML是機器學習的簡寫,OR指運籌學(Operations Research)


將它們結合起來分析

根據受訪者的自我認知和技能排序,可以識別出不同類型的數據科學家所需要的技能。


數據科學家的類別

Data Businesspeople

Data Businesspeople 往往專注於組織管理和如何從數據項目中產生利潤。他們往往將自己定位爲領導或創業者,約 80% 的 Data Businesspeople 承擔員工管理的責任。Data Businesspeople 還可能是諮詢服務或合同類服務的提供者。Data Businesspeople 學歷相對較高,大約 60% 擁有碩士以上學位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科學位的背景。Data Businesspeople 往往操作真實數據,90% 以上偶爾會操作 GB 級別的數據。與其他數據科學家相比,Data Businesspeople 年齡稍微偏大,接近四分之一是女性(相比略高),僅有四分之一的 Businesspeople 把自己稱爲數據科學家(相比略低)。

Data Creative

數據科學家往往可以獨立完成一條龍的完整分析過程:從數據提取,整合、並進行分層,進行統計或其他複雜的分析,創造引人注目的可視化詮釋和效果,開發具有更寬廣應用前景的數據工具。而 Data Creative 則是其中能力最廣泛的數據科學家,他們能夠綜合使用各種工具和技術解決問題、能夠像黑客馬拉松那樣創新產品原型,是典型的萬事通型人才。與其他類的數據科學家相比,Data Creative 更具藝術家風範。與 Data Researcher 相似,Data Creative 也有豐富的的學術經驗,大約 3/4 擁有院校授課或發表論文的經歷,一般擁有經濟學和統計學等領域的學位。但不同之處在於,僅有較少的 Data Creative 擁有博士學位。Data Creative 具有深厚的業務經驗,80% 的 Data Creative 按合同工作(接項目?);40% 創立了企業,甚至比 Data Businesspeople 還多。Data Creative 還被認爲是黑客。他們往往還可能有深厚的開源經驗,業餘爲開源項目和開放數據項目做貢獻。Data Creative 相對更年輕,男性更多。有意思的是,他們也是最積極的迴應我們最後一個問題的:“你覺得本次調查是否對你有用?”

Data Developer

Data Developer 專注於解決數據管理的技術問題 —— 如何獲取,存儲,以及學習。Data Developer 更傾向於將自己評價爲科學家(在這一點上僅次於 Data Researcher)。對於那些從事機器學習和相關的學術研究的人來說,這是當然合理的。但是,還有一些 Data Developer,每日的工作僅僅是日復一日的開發代碼。半數 Data Developer 具有計算機科學或計算機工程學位,約一半人爲開源項目作出過貢獻。更多 Data Developer 會強調自己具有機器學習/大數據技能。部分 Data Developer 做過諮詢工作,承擔過管理崗位、或爲開放數據項目做出過貢獻。

Data Researcher

走向“數據科學家”頭銜的職業生涯路徑中,最有趣是從在學校研究物理或社會科學開始,也有統計學專業的。許多組織已經深刻認識到,即使這些學生在校期間所學專業與企業業務領域完全不同,但他們被訓練出的利用數據瞭解複雜過程的能力仍然極具價值。大部分具備統計技能的受訪者,自認爲是 Data Researcher。近 75% 的 Data Researcher 在同行評審期刊上發表過文章,半數以上擁有博士學位。(心理和政治科學學位也有可觀的數字)。Data Researcher 很少創業,而且僅有半數具有管理經驗。

關於大數據

下圖描述了對於不同數量級數據集處理的調查結果:大多數數據科學家很少直接操作 TB 級以上的數據。


T型數據科學家

大多數成功的數據科學家既有豐富的專業經驗,還至少在數據科學的某一方面深入鑽研,如統計,大數據,或業務溝通等。這就是20世紀90年代提出的所謂的“T形技能”模式:“T”字母頂部的橫表示廣博技能,而豎線表示在某個區域的深度鑽研。T形人才能夠更容易融入跨學科團隊,也能夠更高效地工作。數據科學領域與生俱來就具有協作性和創造性,那些成功的專業人士能夠與數據庫管理員,商務人士,以及其他具有多種互補工作技能的人合作,以使數據項目以創新的方式完成。

Data Businesspeople 具有頂級的商業能力,其他能力較弱。Data Researcher 往往具有非常深的統計相關技能,但一般說來,他們對於機器學習/大數據,商業,和編程技巧卻相對低。Data Developer的模式可以被稱爲“π形”,擁有強大的編程技巧,較強的機器學習/大數據相關技能,而其他三個技能相對中庸。最後,Data Creative 是不像T形結構的,所有技能相對平均,既不最強,也不最弱。


數據科學家和組織結構

數據人才來自哪裏?

70% 的受訪者至少擁有碩士學位,而科學領域的(社會學或物理學,而非數學、計算機、統計、或工程學科)達40%。

科學領域的研究生以上教育,提供了對真實數據的動手實踐,不僅僅描述現象,還要評價理論和辨析立場。物理學和天文學教授了嚴格的統計思維,而粒子加速器和太空望遠鏡系統則提供了大量的需要小心處理的數據流。硬科學背景爲任何類型的數據科學家,尤其是Data Developer提供了良好的培訓。

另一方面,有人認爲,社會科學也培養了大量的數據科學家。心理學家,經濟學家,政治學家,以及其他組織,他們在工作中需要處理的來自真實世界的混亂的,嘈雜的數據。這些領域的數據科學家可以快速清理和彙總數據,利用先進的統計技術來理解因果關係,並深入思考有關數據可視化,展示和溝通的問題。我們在 Data Researcher 和 Data Creative中看到很多這樣的受訪者。

經典計算機科學(機器學習)和應用統計學位也是非常有效的數據科學家的起點。機器學習的重點是大規模數據處理和算法、結合軟件開發技能,自然應用於真實世界組織數據。許多應用統計學科則將諮詢能力、專業領域知識、以及關鍵方面有效的數據科學結合在一起。

還有不少學校也開始培養一些新興的學位,如分析、數據可續、商務智能碩士等。

大多數當前的數據科學家往往涉足過多個領域,在不禁意之間獲得了廣泛而深入的領域知識。

從理論到實踐:實習和指導

帕蒂爾(2011)建議 “招收哪些剛剛走出大學校園的聰明而有創意的人才,再把他們投入非常嚴格的實習計劃中去。” 對於擁有足夠預算,以及高級人才輔導項目的大型組織,這樣做可能效果不錯,但對於小公司,它的實用性似乎不太好。

對於小組織來說,有個可行的替代方式(DataGotham 2012年)—— 聘請專業的顧問,幫助招聘、培訓、再整合和指導新鮮出校的數據科學家。DonorsChoose.org 意識到,僱傭數據科學家收集數據,在完成其慈善使命中具有巨大價值,他們與專家團隊一同工作達5個星期完成僱傭。僱傭之前,專家幫助這個非營利性組織瞭解到數據科學家的作用,隨後幫助新員工培訓和指導,並設置了啓動項目的成功路徑。數據科學家的廣泛的能力將對小組織非常有用,但必須有像這樣創新的方法以確保其有效性。

團隊和組織架構

首先,我們的數據顯示,數據科學家應該是T形人才,具有多樣技能,需要在技能互補的團隊中最有效率。(達文波特 2010;帕蒂爾 2011)。而不明白這一點的組織往往期望聘請一個可以做到一切的“神”。

其次,組織需要建立自己的數據科學團隊,以有效的開展工作。數據科學團隊即需要直接訪問原始數據,也需要與決策者溝通。根據我們的分析,他們具備需要多方面的技能才能充分利用數據。他們還需要得到流程管理的支持,採納和使用其結果。當數據科學團隊的產出被期望爲具有完整的生命週期的軟件系統時,那麼這個團隊中就必須擁有足夠的資源去進行測試,部署和系統維護,這一點至關重要。雖然我們的受訪者都或多或少有一些編程技巧,並能夠承擔這類任務,但期望大多數 Data Businesspeople 或 Data Researchers 能夠高效完成這些,還是個不現實的期望。在大型組織裏,在數據科學團隊上的資金投入,與其他團隊之間的管理關係協調,包括數據基礎設施和IT員工,確實能夠實現價值。(達文波特,2010年)

職業發展

企業中的數據科學家的角色不是一成不變的,也需要職業發展的晉升機會。具有多年數據科學家經驗的員工,非常有價值,也非常難於替代。將工程師提升爲領導角色需要充分衡量利與弊,還要考慮資深員工不想從事管理崗位的各種變數。在我們的調查者中,62%的承擔着管理責任;這個數據能夠顯示有多少數據科學家願意管理團隊,而不是視管理爲煩惱。

在大型組織中,保留數據科學家的另一個有趣的潛在方法是設立輪崗計劃(達文波特,2010年)。在入職培訓之後,數據科學家可以在內部團隊有計劃的轉崗。產品部門可能需要個性化用戶模式;市場部門需要在可控實驗(controlled experiments)方面的幫助;財務部門需要預測;運營部門需要流程優化。通過直接加入不同部門,數據科學家能夠了解關鍵業務的價值觀和技能,專注於部門最需要幫助的問題,並以最小代價提供解決方案。而且,通過階段性輪崗,數據科學家可以獲得更寶貴的技能和寬闊的視野,不斷提升其數據科學技能。


Author : iascchen(at)gmail(dot)com

Date : 2013-09-04

新浪微博 : @問天鼓

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章