你的數據科學家之路還差哪些技能?必看

領英上有這樣一個提問:優秀數據科學家和頂尖數據科學家之間的區別是什麼?

你的數據科學家之路還差哪些技能?必看


在領英上的提問

這一提問收到了許多來自各行各業頂尖數據科學家們的回答,所有的回答也幾乎囊括了成爲頂尖數據科學家所要具備的技能。

事實上,優秀數據科學家和頂尖數據科學家之間是存在差別的。一個數據科學家不可能具備本文提到的所有技能。但正是這些技能,讓頂尖數據科學家從衆多優秀的數據科學家中脫穎而出。

希望看完這篇文章之後,會對你的數據科學家職業生涯有幫助。

1. 教育

你的數據科學家之路還差哪些技能?必看


圖片來源:pexels.com/@pixabay

數據科學家們的受教育水平偏高,88%的數據科學家都擁有碩士學位,46%擁有博士學位。當然,肯定有些例外。要成爲一名數據科學家,需要很高的受教育水平以拓展必要的知識深度。要成爲一名數據科學家,可以考取計算機科學、社會科學、物理科學和統計學的學士學位。最常見的研究領域是數學和統計學(32%),其次是計算機科學(19%)和工程學(16%)。這些學位能讓你掌握處理和分析大數據所需的技能。

【大數據開發學習資料領取方式】:加入大數據技術學習交流扣扣羣957205962,私信管理員即可免費領取開發工具以及入門學習資料

就算完成了學位課程,學習的道路也還沒有結束。實際上,大多數數據科學家都擁有碩士或博士學位,他們還參加諸如如何使用Hodoop或大數據查詢等在線培訓以學習特殊技能。因此,你可以參加數據科學、數學、天體物理學或其它相關領域的碩士學位課程。攻讀學位期間所學的技能將幫你輕鬆過渡到數據科學領域。

除了課堂學習,還可以通過創建一個應用程序、寫博客或探索數據分析來實踐課堂所學,從而掌握更多知識。

只要有能力完成工作,碩士或博士學位只是可選選項。在大多數行業工作範圍內,只要能夠解決業務問題,就不需要研究並採用新奇前沿的機器學習模型。

免費電子書資源:成爲專業數據科學家的74個祕訣

傳送門:https://datascientist88.blogspot.com/2019/05/74-secrets-to-become-pro-data-scientist.html

2. R語言編程

對至少一種分析工具有深入的瞭解,就數據科學而言,R語言編程通常是首選。R語言專爲數據科學的需要而設計,可用來解決數據科學領域中遇到的任何問題。事實上,43%的數據科學家都用R來解決統計問題。然而R編程的學習曲線較爲陡峭。

如果你已經掌握了一門編程語言,那麼R語言就會變得很難學。儘管如此,網上仍有很多資源可以讓你入門R語言,如Simplilearn的R編程語言數據科學培訓,對有抱負的數據科學家來說,這是一個很好的資源。

3. Python編程

Python是數據科學界最常見編程語言,當然還有Java、Perl、或C/C++。對於數據科學家來說,Python是最棒的數據編程語言。這就是爲什麼40%的O’Reilly受訪者都將Python作爲主要編程語言。

由於其通用性,Python可用於數據科學進程的所有步驟中;也可以採用各種格式的數據,輕輕鬆鬆就能將SQL表導入代碼中;還可以創建數據集,在谷歌上搜索到所需的任何類型數據。

閱讀以下書籍瞭解更多Python的基礎知識以及它在數據科學中的應用:

· Python數據科學手冊

傳送門:https://www.amazon.com/Python-Data-Science-Handbook-Essential-ebook/dp/B01N2JT3ST/ref=as_li_ss_tl?keywords=python+for+data+analysis&qid=1540663027&s=Books&sr=1-2&ref=sr_1_2&linkCode=ll1&tag=admond-20&linkId=0bb8a753123e4b54f1fa6dc463585e28

· 用於數據分析的Python

傳送門:https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K/ref=as_li_ss_tl?keywords=python+for+data+analysis&qid=1540663027&s=Books&sr=1-1&ref=sr_1_1&linkCode=ll1&tag=admond-20&linkId=838bdee3bf4ca017f2bc905cd3680f71

· 學習Python

傳送門:https://www.amazon.com/Learning-Python-5th-Mark-Lutz/dp/1449355730/ref=as_li_ss_tl?ie=UTF8&linkCode=ll1&tag=admond-20&linkId=4497aa20eee542a8c0d91e0467082b61

4. Hadhoop平臺

儘管這不是必須的平臺,但很多情況下,這是首選平臺。有Hive或Pig的經驗是一個很好的賣點。熟悉Amazon S3等雲工具也有好處。由CrowdFlower進行的一項面向3490個領英數據科學職位的研究顯示,有49%的人將Apache Hadhoop列爲數據科學家要掌握的第二個重要的技能。

數據科學家可能會遇到這樣一種情況:擁有的數據量超過了系統的內存,或需要將數據發送到不同的服務器。這就是Hadhoop的作用所在,Hadoop可以將數據快速傳輸到系統上的各個點,這還只是冰山一角,Hadoop還可以進行數據探索、數據過濾、數據採樣和彙總。

5. SQL 數據庫/編程

儘管NoSQL和Hadoop是數據科學的重要組成部分。但仍期望候選者能夠用SQL編寫或執行復雜的查詢。SQL(結構化查詢語言)是一種編程語言,可以幫助執行添加、刪除以及從數據庫中提取數據等操作,還可以協助執行分析功能和轉換數據庫結構。

作爲一名數據科學家,需要精通SQL。因爲SQL是專爲訪問、通信和處理數據而設計的,用它查詢數據庫會得到一些見解。簡潔的命令可以節省時間並且減少執行困難查詢所需的編程量。學習SQL有助於更好的理解關係數據庫和提升個人資料。

6. Apache Spark

Apache Spark正在成爲全球最流行的大數據技術,正如Hadoop的大數據計算框架,唯一的差別就是Spark比Hadoop更快,因爲Hadoop需要讀取和寫入磁盤,速度會變慢,Spark則將計算結果緩存在內存中。

Apache Spark專爲數據科學設計,以幫助更快地運行其複雜算法。有助於在處理海量數據時傳播數據處理,從而節省時間;還能在一臺或一組機器上幫助數據科學家處理非結構化數據集。

Apache Spark能防止數據科學中的數據丟失,速度和平臺是它的優勢,能夠輕鬆實施數據科學項目。有了Apache Spark就可以執行從數據接收到分佈式計算的分析。

7. 機器學習和人工智能

大部分數據科學家都不精通機器學習領域和技術,包括神經網絡、強化學習和對抗性學習等。想要脫穎而出,就需要了解如監督機器學習、決策樹和邏輯回顧等機器學習技術。這些技術可以幫助解決基於主要組織結果預測的不同數據科學問題。

數據科學需要在機器學習的不同領域應用技能,Kaggle的一項調查顯示,只有一小部分的數據專業人員能夠掌握高級機器學習技能,例如,監督機器學習、非監督機器學習、時間序列、自然語言處理、離羣值檢查、計算機視覺、推薦引擎、生存分析、強化學習和對抗學習。

數據科學需要處理海量數據集,你可能想要精通機器學習以處理這些數據集。

8. 數據可視化

你的數據科學家之路還差哪些技能?必看


圖片來源:pexels.com/@pixabay

商界會不斷產生大量數據,這些數據需要轉化成易於理解的版本。和原始數據相比,人們更容易理解圖表形式的圖片,“一圖勝千言”。

作爲一名數據科學家,必須要能夠藉助諸如ggplot、d3.js、Matplotlib和Tableau等數據可視化工具將數據可視化。這些工具有助於把項目中的複雜結果轉換爲易於理解的版本。問題在於,很多人不理解序列相關和p值,所以需要直觀的將這些術語表示的內容體現在結果中。

數據可視化給機構提供了直接處理數據的機會。他們能夠迅速洞察數據以抓住商機,在競爭中遙遙領先。

9. 非結構化數據

處理非結構化數據對數據科學家來說至關重要。非結構化數據是不適合數據庫表的非定義內容,例如,視頻、博客文章、客戶評論、社交媒體文章、視頻來源、音頻等,由大量文本堆砌而成。因爲這些數據不夠精簡,所以很難將其分類。

由於非結構化數據的複雜性,大多數人將其稱爲“黑暗分析”。非結構化數據有助於闡明對決策有用的見解。作爲一名數據科學家,必須具備理解和操作不同平臺的非結構數據的能力。

10. 求知慾

我沒有什麼特殊的才能,只有強烈的好奇心。

阿爾伯特·愛因斯坦

毫無疑問,最近在很多地方都能看到這則名言,尤其是和數據科學家相關時。幾個月前,Frank Lo發表的客座博客中,闡述了它的意義並談及了其它必備的“軟技能”。

好奇心的定義是渴望獲得更多知識。作爲一名數據科學家,需要能夠對數據提出問題,因爲數據科學家花了將近80%的時間來發現和準備數據。數據科學領域是一個發展非常迅猛的領域,必須掌握更多知識才能緊跟潮流。

需要定期在線閱讀內容和數據科學發展趨勢的相關書籍來更新自身的知識儲備。不要被互聯網上眼花繚亂的海量數據淹沒了。你必須要知道如何利用它們,好奇心是成爲一名數據科學家的必備技能之一。例如,起初,可能還不能從收集到的數據中察覺出什麼,但好奇心會帶領你在數據中找尋到答案以及帶來更多的見解。

11. 商業頭腦

要成爲一名數據科學家,需要對自己所在的行業有一個堅實的瞭解,以及瞭解公司有哪些待解決的問題。就數據科學而言,除了利用其數據確定業務的新方法外,能夠辨別哪些問題能夠解決業務也是至關重要的。

要做到這一點,必須要了解解決的問題會如何影響業務。瞭解企業的運作,才能朝着正確的方向努力。

12. 溝通技巧

尋找卓越數據科學家的公司正在招聘這樣的人,他能夠清晰流暢的將技術發現傳達給如市場或銷售部門等的非技術團隊。除了需要理解非技術部門同事的需求以便恰當的討論數據外,數據科學家還必須確保企業所做的決定有高質量的見解支撐。

除了使用公司所能理解的語言外,還需要用數據講故事的方式來溝通。作爲一名數據科學家,需要知道如何圍繞數據來構造故事線,以便其它人都能夠輕鬆理解。例如,直接呈現數據不如以講故事的形式分享對這些數據的見解有效。講故事的形式有助於你恰到好處的與僱主溝通數據發現。

交流時,注意分析數據的結果和值。大多數僱主並不想知道你分析了什麼,他們感興趣的是這些數據會對業務產生什麼積極影響。學會通過溝通傳遞價值和建立持久關係。

13. 團隊合作

你的數據科學家之路還差哪些技能?必看


圖片來源:pexels.com/@rawpixel

數據科學家不能孤軍奮戰。必須和公司高管一起研究戰略,與產品經理和設計師攜手研發新產品,和營銷人員一起開展更好的轉換活動,與客戶端和服務器軟件開發人員並肩作戰以創建數據管道和改進工作流。必須和公司裏的每一個人一起工作,包括你的客戶。

從根本上來說,你將和團隊成員協作開發用例,以便了解解決問題所需的業務目標和數據,知道處理用例的正確方法,解決問題所需的數據,以及如何以相關人員都能輕鬆理解的方式來呈現結果。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章