數據挖掘學習必備的10個技能(乾貨)

 

       數據挖掘是從龐大的數據源中提取有效信息,並將該信息轉換爲潛在有用且最終易於理解的模式,以供進一步使用。正如 Wikipedia 所解釋的,它不僅包括數據處理和管理,而且還涉及機器學習,統計和數據庫系統的智能方法。

      數據挖掘也是數據科學領域中最重要的技術,在2016年至2018年Glassdoor的“美國50最佳工作”列表中,數據挖掘排名第一。 此外,與2016年的1700個職位空缺相比,這兩年內列出的職位空缺數量明顯增加了160%。

     爲了幫助大家掌握數據科學技術,我們之前出版了80本值得一讀的最佳數據科學書籍88種成爲數據科學家的資源和工具。 因此,在本文我將專注於數據挖掘領域,並總結10個您需要的基本技能。

 

計算機科學技能

 

 1. 編程/統計語言:R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…

       數據挖掘在很大程度上依賴於編程,但現在尚無定論哪個纔是數據挖掘的最佳語言。這完全取決於您處理的數據源。彼得·格里森(Peter Gleeson)提出了四個頻譜供您選擇哪種編程語言:特異性,通用性,生產率和性能,可以將它們視爲一對軸(特異性-通用性,性能-生產率)。 大多數語言都有利有弊。根據KD Nuggets的研究,R和Python是數據科學中最受歡迎的編程語言。

更多資源:

您應該爲數據科學學習哪些語言[ Freecode Camp ]

R中的數據挖掘算法[ Wikibooks ]

用於數據挖掘的最佳Python模塊[ KD Nuggets ]

 

 2. 大數據處理框架:Hadoop,Storm,Samza,Spark,Flink

        處理框架對系統中的數據進行計算,例如從非易失性存儲中讀取數據並將數據吸收到數據系統中,這是從大量單個數據點中提取信息和洞察力的過程。它可以分爲3類:僅批處理,僅流和混合。

 

Hadoop和Spark是迄今爲止實施最多的框架。如果無需考慮時間成本,Hadoop是批處理工作負載的一個不錯選擇。與其他實施相比,Hadoop的實現成本更低。 而Spark是混合工作負載的不錯選擇,它可以爲流提供更高速度的批處理和微批處理。

更多資源:

Hadoop,Storm,Samza,Spark和Flink:大數據框架比較[ Digital Ocean ]

數據挖掘的數據處理框架[ Google Scholar ]

 

3. 操作系統:Linux

       對於數據挖掘科學家來說,Linux是一種流行的操作系統,對於操作大型數據集而言,Linux更加穩定和高效。如果您瞭解Linux的常用命令,並且能夠在Linux上部署Spark分佈式機器學習系統,那麼這是一個加號。

 

4. 數據庫知識:關係數據庫和非關係數據庫

       要管理和處理大型數據集,您必須掌握關係數據庫的知識,例如SQL或Oracle,或非關係數據庫,其主要類型爲:列:Cassandra,HBase; 文件:MongoDB,CouchDB; 關鍵值:Redis,Dynamo。

 

統計與算法技巧

 

5. 基本統計知識:概率,概率分佈,相關性,迴歸,線性代數,隨機過程…

相關,迴歸,線性代數,隨機過程…

回顧一下數據挖掘的定義,我們就知道數據挖掘不僅涉及編碼或計算機科學,而是處於多個科學領域的交叉點上,其中統計學是不可或缺的一部分。 統計學的基本知識對於數據挖掘者至關重要,它可以幫助您識別問題、獲得更準確的結論、區分因果關係和相關性以及量化發現結果的確定性。

更多資源:

我應該知道什麼統計才能做數據科學[ Quora ]

數據挖掘的統計方法[ Research Gate ]

 

6. 數據結構與算法

數據結構包括數組,鏈表,堆棧,隊列,樹,哈希表,集合等,而常見的算法包括排序,搜索,動態編程,遞歸等

精通數據結構和算法對於數據挖掘至關重要,它可以在處理大量數據時爲您提供更具創造性和效率的算法解決方案。

更多資源:

數據,結構和數據科學傳遞[ IBM Developer ]

Cousera:數據結構和算法[ 加利福尼亞大學聖地亞哥分校]

 

7. 機器學習/深度學習算法

       這是數據挖掘的最重要部分之一。 機器學習算法可建立樣本數據的數學模型,以進行預測或決策,而無需進行明確編程即可執行任務。 深度學習是更廣泛的機器學習方法系列中的一部分。機器學習和數據挖掘通常採用相同的方法,並且存在明顯的重疊。

更多資源:

使用Python和R代碼的機器學習算法的要點[ Analytics Vidhya ]

很棒的機器學習框架,庫和軟件的清單(按語言)[ Github josephmisiti ]

 

8. 自然語言處理

        自然語言處理(NLP)作爲計算機科學和人工智能的子領域,可幫助計算機理解,解釋和操縱人類語言。 NLP被廣泛用於分詞,語法和語義分析,自動摘要和文本包含。 對於需要處理大量文本的數據採集者來說,瞭解NLP算法是必不可少的技能。

更多資源:

面向數據科學家的10個NLP任務[ Analytics Vidhya ]

很棒的機器學習框架,庫和軟件的清單(按語言)[ Github josephmisiti ]

開源NLP庫:Standford NLPApache OpenNLP ; Naturel語言工具包

 

其他

 

9. 項目經驗

       您的項目經驗是您數據挖掘技能的最省力的證明。 當被問到如何獲得數據科學的第一份工作時,DataCamp的首席數據科學家David Robinson說:“對我來說,最有效的策略是從事公共工作。在博士後期間我進行了很多開源開發並寫博客。這些都爲我的數據科學技能提供了公開證據。” 如果您希望獲得更多的數據挖掘經驗,請嘗試在12個最受歡迎的數據科學計劃平臺中中查找最佳項目。

 

10. 溝通與表達技巧

       數據挖掘者不僅要處理數據,而且還負責向其他人,甚至是非技術受衆,例如營銷團隊,解釋從數據中獲取的結果和見解。 您應該能夠以口頭,書面和陳述的方式很好地解釋數據結果,講故事。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章