大數據知識體系大全---零基礎如何學習大數據技術?

在我學習和從事大數據相關工作的4年裏,在我有限的知識海洋裏,大數據是一個以數據流向爲主的鏈條或管道,數據從何而來,又去往哪裏,不僅是哲學上的一個問題,也可以在做數據工作的時候考慮這個問題。如下圖所示,大數據領域可以分爲以下幾個主要方向,而這幾個方向又可以分別對應一些工作職位:

數據科學之——大數據知識體系大全

 

想要在大數據這個領域汲取養分,讓自己壯大成長。分享方向,行動以前先分享下一個大數據交流分享資源羣870097548,歡迎想學習,想轉行的,進階中你加入學習。
 

 

1 數據平臺

Data Platform,構建、維護穩定、安全的大數據平臺,按需設計大數據架構,調研選型大數據技術產品、方案,實施部署上線。對於大數據領域涉及到的大多數技術都需要求有所瞭解,並精通給一部分,具備分佈式系統的只是背景……

對應職位:大數據架構師,數據平臺工程師

2 數據採集

Data Collecting,從Web/Sensor/RDBMS等渠道獲取數據,爲大數據平臺提供數據來源,如Apache Nutch是開源的分佈式數據採集組件,大家熟知的Python爬蟲框架ScraPy等。

對應職位:爬蟲工程師,數據採集工程師

3 數據倉庫

Data Warehouse,有點類似於傳統的數據倉庫工作內容:設計數倉層級結構、ETL、進行數據建模,但基於的平臺不一樣,在大數據時代,數據倉庫大多基於大數據技術實現,例如Hive就是基於Hadoop的數據倉庫。

對應職位:ETL工程師,數據倉庫工程師

4 數據處理

Data Processing,完成某些特定需求中的處理或數據清洗,在小團隊中是結合在數據倉庫中一起做的,以前做ETL或許是利用工具直接配置處理一些過濾項,寫代碼部分會比較少,如今在大數據平臺上做數據處理可以利用更多的代碼方式做更多樣化的處理,所需技術有Hive、Hadoop、Spark等。BTW,千萬不要小看數據處理,後續的數據分析、數據挖掘等工作都是基於數據處理的質量,可以說數據處理在整個流程中有特別重要的位置。

對應職位:Hadoop工程師,Spark工程師

5 數據分析

Data Analysis,基於統計分析方法做數據分析:例如迴歸分析、方差分析等,天善也有很多數據分析課程。大數據分析例如Ad-Hoc交互式分析、SQL on Hadoop的技術有:Hive 、Impala、Presto、Spark SQL,支持OLAP的技術有:Kylin。

對應職位:數據分析師

6 數據挖掘

Data Mining,是一個比較寬泛的概念,可以直接理解爲從大量數據中發現有用的信息。大數據中的數據挖掘,主要是設計並在大數據平臺上實現數據挖掘算法:分類算法、聚類算法、關聯分析等。

對應職位:數據挖掘工程師

7 機器學習

Machine Learning,與數據挖掘經常一起討論,甚至被認爲是同一事物。機器學習是一個計算機與統計學交叉的學科,基本目標是學習一個x->y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因爲現在好多數據挖掘的工作是通過機器學習提供的算法工具實現的,例如個性化推薦,是通過機器學習的一些算法分析平臺上的各種購買,瀏覽和收藏日誌,得到一個推薦模型,來預測你喜歡的商品。

對應職位:算法工程師,研究員

8 深度學習

Deep Learning,是機器學習裏面的一個topic(非常火的Topic),從深度學習的內容來看其本身是神經網絡算法的衍生,在圖像、語音、自然語言等分類和識別上取得了非常好的效果,大部分的工作是在調參。不知道大家有否發現現在的Google 翻譯比以前的要準確很多,因爲Google在去年底將其Google 翻譯的核心從原來基於統計的方法換成了基於神經網絡的方法~So~

對應職位:算法工程師,研究員

9 數據可視化

Data Visualization,將分析、挖掘後的高價值數據用比較優美、靈活的方式展現在老闆、客戶、用戶面前,更多的是一些前端的東西,maybe要求一定的美學知識。結合使用者的喜好,以最恰當的方式呈現數據價值。

對應職位:數據工程師,BI工程師

10 數據應用

Data Application,從以上的每個部分可以衍生出的應用,例如廣告精準投放、個性化推薦、用戶畫像等。

對應職位:數據工程師

建議:想進入大數據領域的朋友可以選一個與自己現有技術背景相匹配的方向作爲入門,然後將你的魔爪延伸到其他感興趣的方向,這是最快進入這個領域的一個方法。這裏所列的每一個方向都需要耗費大量的時間、腦力、體力,都是這個智能時代繼續發展的過程中不可或缺的一部分。

第一階段

瞭解大數據的基本概念

首先,學習一門課程的時候,要對這門課程有一個簡單的瞭解,比如說,要先學習這門課程的一些專業的術語,學習一些入門概念知道這門課程是做什麼的,主要的學習知識有哪些。因此學習大數據就必須知道什麼是大數據,一般大數據的運用領域是那些,避免自己在對大數據一無所知的情況下就開始盲目學習。

第二階段

大數據課程學習

對於零基礎的小夥伴們來說,開始入門可能並不是那麼容易,需要學習大量的理論知識,閱讀枯燥的教材。因此要通過自學來掌握一門計算機編程語言,還是很難的。大家都知道計算機編程語言有很多,比如:C++,Python,Java等等。

第三階段

項目實戰階段

實戰訓練可以幫助我們更好的理解所學的內容,同時對相關知識加強記憶。在以後的實際運用中,可以更快的上手,對於相關知識的使用方法也有了經驗。

世上無難事只怕有心人,無論你是有基礎也好還是沒基礎也好,只要你認真學習大數據就一定會學好。

第四階段

後續提高

大數據結合人工智能可以達到真正的數據科學家。

機器學習:是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。機器學習的算法基本比較固定了,學習起來相對容易。

深度學習:深度學習的概念源於人工神經網絡的研究,最近幾年發展迅猛。深度學習應用的實例有AlphaGo、人臉識別、圖像檢測等。是國內外稀缺人才,但是深度學習相對比較難,算法更新也比較快,需要跟隨有經驗的老師學習。

最快的學習方法,就是參加大數據課程培訓,師從行業專家,畢竟老師有多年積累的經驗,自己少走彎路達到事半功倍的效果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章