數據科學家-爲大數據時代做好準備

原文鏈接：爲大數據時代做好準備——來自《大數據的衝擊》一書精彩片段

需求高漲的數據科學家

從技術方面來看，硬盤價格下降，NoSQL數據庫等技術的出現，使得和過去相比，大量數據能夠以廉價高效的方式進行存儲。此外，像Hadoop這樣能夠在通用性服務器上工作的分佈式處理技術的出現，也使得對龐大的非結構化數據進行統計處理的工作比以往更快速且更廉價。

然而，就算所擁有的工具再完美，它本身是不可能讓數據產生價值的。接下來我們還需要能夠運用這些工具的人才，他們能夠從堆積如山的大量數據中找到金礦，並將數據的價值以易懂的形式傳達給決策者，最終得以在業務上實現。具備這些技能的人才，就是在大數據浪潮如火如荼的美國目前正千金難求的“數據科學家”。

對數據科學家的關注，源於大家逐步認識到，Google、Amazon、Facebook等公司成功的背後，存在着這樣的一批專業人才。這些Web公司對於大量數據不僅僅是進行存儲而已，而是將其變爲有價值的金礦——例如，搜索結果、定向廣告、準確的商品推薦、可能認識的好友列表等。

數據科學（data science）是一個很久之前就存在的詞彙，但數據科學家（data scientist）卻是幾年前突然出現的一個新詞。關於這個詞的起源說法不一，其中在《數據之美》（Beautiful Data，Toby Segaran、Jeff Hammerbacher編著，O’Reilly出版）一書中，對於Facebook的數據科學家，有如下敘述。

“在Facebook，我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的：在任意給定的一天，團隊的一個成員可以用Python實現一個多階段的處理管道流、設計假設檢驗、用工具R在數據樣本上執行迴歸測試、在Hadoop上爲數據密集型產品或服務設計和實現算法，或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。爲了掌握完成這多方面任務需要的技術，我們創造了‘數據科學家’這種角色。”

僅僅在幾年前，數據科學家還不是一個正式確定的職業，然而一眨眼的工夫，這個職業就已經被譽爲“今後10年IT行業最重要的人才”了。

Google首席經濟學家，加州大學伯克利分校教授哈爾•範裏安（Hal Varian，1947～）先生，在2008年10月與麥肯錫總監James Manyika先生的對話中，曾經講過下面一段話（中文版節選自麥肯錫季刊官方中文稿）。 “我總是說，在未來10年裏，最有意思的工作將是統計學家。人們都認爲我在開玩笑。但是，過去誰能想到電腦工程師會成爲上世紀90年代最有趣的工作？在未來10年裏，獲取數據——以便能理解它、處理它、從中提取價值、使其形象化、傳送它——的能力將成爲一種極其重要的技能，不僅在專業層面上是這樣，而且在教育層面（包括對中小學生、高中生和大學生的教育）也是如此。由於如今我們已真正擁有實質上免費的和無所不在的數據，因此，與此互補的稀缺要素是理解這些數據並從中提取價值的能力。”

範裏安教授在當初的對話中使用的是“statisticians”（統計學家）一詞，雖然當時他沒有使用“數據科學家”這個詞，但這裏所指的，正是現在我們所討論的數據科學家。

數據科學家所需的技能

數據科學家這一職業並沒有固定的定義，但大體上指的是這樣的人才。

“所謂數據科學家，是指運用統計分析、機器學習、分佈式處理等技術，從大量數據中提取出對業務有意義的信息，以易懂的形式傳達給決策者，並創造出新的數據運用服務的人才。”數據科學家所需的技能如下。

(1) 計算機科學

一般來說，數據科學家大多要求具備編程、計算機科學相關的專業背景。簡單來說，就是對處理大數據所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

(2) 數學、統計、數據挖掘等

除了數學、統計方面的素養之外，還需要具備使用SPSS、SAS等主流統計分析軟件的技能。其中，面向統計分析的開源編程語言及其運行環境“R”最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫，而且具備將結果進行可視化的高品質圖表生成功能，並可以通過簡單的命令來運行。此外，它還具備稱爲CRAN（The Comprehensive R Archive Network）的包擴展機制，通過導入擴展包就可以使用標準狀態下所不支持的函數和數據集。

(3) 數據可視化（Visualization）

信息的質量很大程度上依賴於其表達方式。對數字羅列所組成的數據中所包含的意義進行分析，開發Web原型，使用外部API將圖表、地圖、Dashboard等其他服務統一起來，從而使分析結果可視化，這是對於數據科學家來說十分重要的技能之一。

作爲參考，下面節選了Facebook和Twitter的數據科學家招聘啓事。對於現實中的企業需要怎樣的技能，應該可以爲大家提供一些更實際的體會。

Facebook對數據科學家的招聘信息

Facebook計劃爲數據科學團隊招聘數據科學家。應聘該崗位的人，將擔任軟件工程師、量化研究員的工作。理想的候選人應對在線社交網絡的研究有濃厚興趣，能夠找出創造最佳產品過程中所遇到的課題，並對解決這些課題擁有熱情。

職務內容

 確定重要的產品課題，並與產品工程團隊密切合作尋求解決方案
 通過對數據運用合適的統計技術來解決課題
 將結論傳達給產品經理和工程師
 推進新數據的收集以及對現有數據源的改良
 對產品的實驗結果進行分析和解讀
 找到測量、實驗的最佳實踐方法，傳達給產品工程團隊

必要條件

 相關技術領域的碩士或博士學位，或者具備4年以上相關工作經驗
 對使用定量手段解決分析性課題擁有豐富的經驗
 能夠輕鬆操作和分析來自各方的、複雜且大量的多維數據
 對實證性研究以及解決數據相關的難題擁有極大的熱情
 能對各種精度級別的結果採用靈活的分析手段
 具備以實際、準確且可行的方法傳達複雜定量分析的能力
 至少熟練掌握一種腳本語言，如Python、PHP等
 精通關係型數據庫和SQL
 對R、MATLAB、SAS等分析工具具備專業知識
 具備處理大量數據集的經驗，以及使用MapReduce、Hadoop、Hive等分佈式計算工具的經驗
來源：Facebook（中文翻譯出自譯者）

Twitter對數據科學家（負責增加用戶數量）的招聘信息

關於業務內容

Twitter計劃招聘能夠爲增加Twitter用戶數提供信息和方向性，具備行動力和高超技能的人才。應聘者需要具備統計和建模方面的專業背景，以及大規模數據集處理方面的豐富經驗。我們期待應聘者所具有的判斷力能夠在多個層面上決定Twitter產品羣的方向性。

職責
 使用Hadoop、Pig編寫MapReduce格式的數據分析
 能夠針對臨時數據挖掘流程和標準數據挖掘流程編寫複雜的SQL查詢
 能夠使用SQL、Pig、腳本語言、統計軟件包編寫代碼
 以口頭及書面形式對分析結果進行總結並做出報告
 每天對數TB規模、10億條以上事務級別的大規模結構化及非結構化數據進行處理

必要條件

 計算機科學、數學、統計學的碩士學位或者同等的經驗
 2年以上數據分析經驗
 大規模數據集及Hadoop等MapReduce架構方面的經驗
 腳本語言及正則表達式等方面的經驗
 對離散數學、統計、概率方面的興趣
 將業務需求映射到工程系統方面的經驗
來源：Twitter（中文翻譯出自譯者）

數據科學家所需的素質

這一節的內容與技能部分有所重疊，數據科學家所需要具備的素質有以下這些。

(1) 溝通能力
即便從大數據中得到了有用的信息，但如果無法將其在業務上實現的話，其價值就會大打折扣。爲此，面對缺乏數據分析知識的業務部門員工以及經營管理層，將數據分析的結果有效傳達給他們的能力是非常重要的。
(2) 創業精神（entrepreneuership）
以世界上尚不存在的數據爲中心創造新型服務的創業精神，也是數據科學家所必需的一個重要素質。Google、Amazon、Facebook等通過數據催生出新型服務的企業，都是通過對龐大的數據到底能創造出怎樣的服務進行艱苦的探索才獲得成功的。
(3) 好奇心
龐大的數據背後到底隱藏着什麼，要找出答案需要很強的好奇心。除此之外，成功的數據科學家都有一個共同點，即並非侷限於藝術、技術、醫療、自然科學等特定領域，而是對各個領域都擁有旺盛的好奇心。通過對不同領域數據的整合和分析，就有可能發現以前從未發現過的有價值的觀點。
美國的數據科學家大多擁有豐富的從業經歷，如實驗物理學家、計算機化學家、海洋學家，甚至是神經外科醫生等等。也許有人認爲這是人才流動性高的美國所特有的現象，但其實正如我們在第4章中所介紹的GREE一樣，在日本也出現了一些積極招募不同職業背景人才的企業，這樣的局面距離我們已經不再遙遠。

嚴重的人才匱乏

數據科學家需要具備廣泛的技能和素質，因此預計這一職位將會陷入供不應求的狀態，即遇到人手不足的困境。例如，麥肯錫全球研究院（MGI）在2011年5月發表的題爲“Big data: The next frontier for innovation, competition and productivity”（大數據：未來創新、競爭、生產力的指向標）的報告中指出，在美國具備高度分析技能的人才（大學及研究生院中學習統計和機器學習專業的學生）供給量，2008年爲15萬人，預計到2018年將翻一番，達到30萬人。然而，預計屆時對這類人才的需求將超過供給，達到44萬～49萬人的規模，這意味着將產生14萬～19萬的人才缺口。
僅僅四、五年前，對數據科學家的需求還僅限於Google、Amazon等Web類企業中。然而在最近，重視數據分析的企業，無論是哪個行業，都在積極招募數據科學家，這也令人手不足的狀況雪上加霜。
大型IT廠商EMC在2011年12月發表的一份關於數據科學家的調查報告“EMC Data Science Study”中提出了一些非常有意思的見解。

該調查的對象包括美國、英國、法國、德國、印度、中國的數據科學家，以及商業智能專家等IT部門的決策者，共計462人。除此之外，EMC還從2011年5月在拉斯維加斯召開的“數據科學家峯會”的參加者，以及在線數據科學家社區Kaggle中邀請了35人蔘加這項調查。該調查結果的要點如下。

首先，三分之二的參加者認爲數據科學家供不應求。這一點與前面提到的麥肯錫的報告是相同的。對於新的數據科學家供給來源，有三分之一的人期待“計算機科學專業的學生”，排名第一，而另一方面，期待現有商業智能專家的卻只有12%，這一結果比較出人意料（圖表8-6）。也就是說，大部分人認爲，現在的商業智能專家無法滿足對數據科學家的需求。

數據科學家與商業智能專家之間的區別在於，從包括公司外部數據在內的數據獲取階段，一直到基於數據最終產生業務上的決策，數據科學家大多會貫穿數據的整個生命週期。這一過程中也包括對數據的過濾、系統化、可視化等工作

研究生院的成立

隨着對大數據分析需求的高漲，未來必將帶來數據科學家的嚴重不足，爲了解決這一問題，美國一些大學已經開始成立分析學專業的研究生院。

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學（Northwestern University），就是其中之一。西北大學決定從2012年9月起在其工程學院下成立一個主攻大數據分析課程的分析學研究生院，並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的：“雖然只要具備一些Hadoop和Cassandra的基本知識就很容易找到工作，但擁有深入知識的人才卻是十分缺乏的。”

此外，該研究生院的課程計劃以“傳授和指導將業務引向成功的技能，培養能夠領導項目團隊的優秀分析師”爲目標，授課內容在數學、統計學的基礎上，融合了尖端計算機工程學和數據分析。課程預計將涵蓋分析領域中主要的三種數據分析方法：預測分析、描述分析（商業智能和數據挖掘）和規範分析（優化和模擬），具體內容如下。

(1) 秋學期
 數據挖掘相關的統計方法（多元Logistic迴歸分析、非線性迴歸分析、判別分析等）
 定量方法（時間軸分析、概率模型、優化）
 決策分析（多目的決策分析、決策樹、影響圖、敏感性分析）
 樹立競爭優勢的分析（通過項目和成功案例學習基本的分析理念）

(2) 冬學期
 數據庫入門（數據模型、數據庫設計）
 預測分析（時間軸分析、主成分分析、非參數迴歸、統計流程控制）
 數據管理（ETL（Extract、Transform、Load）、數據治理、管理責任、元數據）
 優化與啓發（整數計劃法、非線性計劃法、局部探索法、超啓發（模擬退火、遺傳算法））

(3) 春學期
 大數據分析（非結構化數據概念的學習、MapReduce技術、大數據分析方法）
 數據挖掘（聚類（k-means法、分割法）、關聯性規則、因子分析、存活時間分析）
 其他，以下任選兩門（社交網絡、文本分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的概率模型）

(4) 秋學期
 風險分析與運營分析的計算機模擬
 軟件層面的分析學（組織層面的分析課題、IT與業務用戶、變革管理、數據課題、結果的展現與傳達方法）
 畢業設計

在成立研究生院的同時，IT廠商也積極開展合作。IBM不僅贊助了4萬美元，還發表聲明承諾免費提供其預測分析軟件SPSS，並對硬件採購提供優惠。作爲SPSS的競爭對手，同樣開發預測分析軟件的SAS以及數據倉庫廠商Teradata也將提供必需的產品以及產品使用培訓等方面的贊助和支持。

由於2012年1月就任的IBM首位女性CEO弗吉尼亞•羅曼提（Virginia Rometty，1958～）女士曾在西北大學取得了計算機科學的學士學位，並現任該校理事，因此IBM在與西北大學的合作方面十分投入，除了硬件和軟件，還聲明將在課程開發、案例研究等教材開發方面提供幫助。考慮到IBM最近在大數據以及分析業務上的發力，這一舉措無疑是希望西北大學能夠成爲將來其分析人才的供應來源。

日本也開始了對數據科學家的爭奪

在日本，隨着大數據的運用水平逐步提高，也會和美國一樣產生人才不足的問題。因此，需要以政府爲主導，採取對高等教育進行重新規劃等中長期的舉措。

然而，我們經常說“雲計算接下來就是大數據”，對於想要儘早確立大數據相關業務的系統集成商來說，即便達不到“數據科學家”的水平，也必須要儘快獲得具備數據分析能力的專業人才，形勢可謂時不我待。進入2012年以後，這一動向變得更加活躍。例如，NEC於2012年2月宣佈加強大數據業務：“在公司內部培養或合作培養精通客戶的業務並能夠提出解決方案的領域專家和數據分析專家。今後三年中計劃將團隊規模擴大到200人。”

在NEC發表聲明僅僅兩天之後，NTT Data宣佈收購擁有約70名商業分析專業人才，從事分析諮詢業務的株式會社數理系統（Mathematical Systems, Inc.），引發了IT業界的強烈震動。NTT Data通過這一收購，使得其“商業分析專業人才達到90人”，並且還宣佈“在2012年中繼續擴充10人，計劃達到100人”。系統集成商的這些行動，無疑是瞄準了“爲難以獲得數據分析專業人才的用戶企業提供支持”這一商機。另一方面，已經着手進行大數據運用的一部分先進的日本企業，爲了獲得具備高度技能的人才，已開始將觸手伸向了海外。例如，在公司內部新成立“大數據部門” ，一直以來就致力於大數據分析的樂天，已經開始在全世界範圍內招賢納士了。該公司執行董事，樂天技術研究所所長森正彌先生，對其理由是這樣闡述的：“具備能夠在Hadoop集羣上實現機器學習算法這樣高技能的人才，在國內難以獲得，從結果來看，我們招聘的人才中有九成都是外國人。”

管理超過9000萬件商品，擁有約7000萬人會員的樂天，除了商品和會員的屬性數據、會員購買記錄、商品評價、排名信息等數據之外，還擁有像點擊流數據、搜索日誌等，總計達數百TB級別的數據。尤其是很多各地的中小企業都在樂天上開店，“像各地商品信息等非結構化數據非常之多”（森正彌）。因此，樂天從很早就開始自行開發Hadoop這樣的分佈式處理框架和NoSQL數據庫等技術，連美國Web類企業也感到驚訝不已。也正是因此，相比現在纔開始考慮培養數據分析專家的系統集成商來說，樂天理所當然地已經處於遙遙領先的地位。近年來，樂天開始積極推進在臺灣、印度尼西亞、泰國、法國、美國等地的全球化業務。想想看，對於致力於全球化的企業來說，已經沒有理由將招賢納士的範圍僅僅侷限在日本國內了。對於以大數據爲武器真正追求全球化的企業來說，要在短期內解決數據科學家缺乏的問題，也許有更多的企業會採取引進海外人才的舉措。

最後的問題：組織結構和企業文化

有了高質量的數據和對其進行高效處理的IT基礎架構，再加上優秀的數據科學家，最後就看組織結構和企業文化了。即便能夠得到優秀的分析結果，如果沒有能夠形成準確決策和迅速行動的組織機構，則一切都是徒勞。當分析結果與經驗直覺相違背的時候，如果企業的文化中無條件地看重經驗直覺，那麼數據分析就會變得毫無意義。在闡述數據分析有用性的名著《以分析力爲武器的企業》（Competing on Analytics，Thomas H. Davenport、Jeanne G. Harris著，村井章子譯，日經BP社出版）的序言中，就介紹了本書第1章所提到的Harrah’s Entertainment的董事長、總裁兼首席執行官Gary Loveman先生所說的一席話。這裏所說的分析管理絕對還談不上與分析方法、數據的可獲得性或者技術什麼關係。（中略）……分析管理存在一些普遍的問題，例如：

 盛行的傳統思想往往與有權勢的人聯繫在一起，這些思想往往無須通過重要的測試就能一直沿用下去。
 決策，特別是高管層的決策，不僅僅是沒能進行嚴格的、不帶偏見的分析，而且那種不加分析的做法還大行其道，其根本原因在於這種做法被認爲是高管層具備稀罕的天賦，人們認爲這是這種天賦使企業領袖和有遠見卓識的領導有別於雖然聰明但靈感不足的人。
 企業中缺乏那些勤於而且精於數據分析工作的人。人們總是把數據分析工作看成是最後的解決辦法，而且往往從事分析的人並不熟悉恰當的分析方法。
 情況往往是由人決定思想，而非由思想掌控人。

怎麼樣？Loveman先生提出的這些問題，是不是擊中了很多企業的要害？招募優秀的數據科學家固然重要，但與此同時，千萬不能忘記對經理及高管層的培養，使他們能夠憑藉數據科學家所得到信息做出準確的決策和行動。

目標：成爲數據驅動型企業

能夠將數據分析的結果以及其中所得到的信息及時反映到業務中以樹立競爭優勢地位的企業，在歐美被稱爲“數據驅動型企業”（Data Driven Enterprise）。

爲了成爲數據驅動型企業，需要培養永遠基於數據進行決策的企業文化。在需要做出判斷的時候，形成總是要求提供數據佐證的氛圍是非常重要的。作爲數據驅動型企業代表的Google中，每當提出一個新的想法時，都必然會被問及“是否經過測試，是否有數據佐證”這樣的問題。

當然，通往數據驅動型企業的道路並非一馬平川，值得探討的要點有很多，例如創造一個不僅只有一部分分析團隊和管理層，而是任何員工都可以訪問的數據環境，以及能夠將分析結果迅速在業務上實現的組織結構等等。本書中一直反覆強調，所謂“大數據”並不是單純指數據量的增加。通過對過去不曾運用的或無法運用的多種多樣的數據進行適當的收集，雖然從結果上來看，可能會形成大量的數據，但並不是說數據量一定要達到數TB甚至數PB才能算是大數據，最重要的是要發現曾經忽略的數據的價值。

水煮魚的博客

發佈了163 篇原創文章 · 獲贊 62 · 訪問量 63萬+

他的留言板關注

數據科學家-爲大數據時代做好準備

原文鏈接：爲大數據時代做好準備——來自《大數據的衝擊》一書精彩片段

需求高漲的數據科學家

數據科學家所需的技能

Facebook對數據科學家的招聘信息

Twitter對數據科學家（負責增加用戶數量）的招聘信息

數據科學家所需的素質

嚴重的人才匱乏

研究生院的成立

日本也開始了對數據科學家的爭奪

最後的問題：組織結構和企業文化

目標：成爲數據驅動型企業

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

在線問卷調研的侷限與對策

NLP在線演示案例

Python、 R 語言、SAS、SPSS 優缺點比較？

8款實用HTML5開發框架

互聯網將如何顛覆這17個傳統行業

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結