你好,我是號主的朋友應癲,大數據領域十年研發和管理,曾就職於中國電子、美團、字節跳動。
今天給大家分享的是我根據自己的經歷和經驗總結出來的大數據技術學習路線,教你如何突破大數據層層技術難關。
由於原圖太大,請文末掃碼獲取原圖如圖,你可以看到一些圖標,紅色的小紅旗表示這個地方是重點,綠色的對勾表示這個地方是難點。
對重點和難點更詳細的解讀,接下來我也會分享,現在還是先來認識整體的學習路線。
整個學習路線在這裏分成了 14 個階段,而這 14 個階段會被進一步劃分爲 5 大模塊。
1. Java 知識
第一大模塊是 Java 的知識,作爲大數據從業人員,Java 是我們必須要會的。因爲大數據平臺很多軟件都是 Java 開發的,所以我們必須要掌握這門編程語言。
2. 離線階段
第二大模塊是離線階段。你已經知道大數據計算有離線計算和實時流式計算,離線計算在當下企業中應用得也比較多,實時雖然是王道,但現狀是,在企業應用當中離線計算也佔有挺大比例。
對於離線階段,你重點要學習 Hadoop 框架以及 Hadoop 生態圈當中的技術棧。
除此之外,數據採集工具 Flume,大數據交互組件 Hue 也需要學習。以及前面提到的 HBase 非關係型據庫,包括一些任務調度系統。這些我們都把它歸爲 Hadoop 生態圈技術棧。
在我給大家提供的學習路線圖當中,離線階段還有其他兩個內容,就是 Redis 和 Kafka。
這就是大數據平臺經常涉及到的兩個組件——Redis 和 Kafka,需要我們去學習。其實 Kafka 比 Redis 在大數據平臺當中更加常見。
學完這部分,你可以選擇做一做離線數倉項目鞏固一下知識。
3. 實時階段
實時階段離不開 Spark,建議你在學習 Spark 之前,最好掌握 Scala 語言,往往在寫 Spark 程序是用 Scala 語言去開發。
Spark 不僅有離線處理部分,也有實時處理部分。其中離線處理部分就叫作 Spark SQL,可以處理離線數據;實時處理部分叫作 Spark Streaming,可以處理流式數據。
除此之外,你還應該去掌握一下 Spark 的源碼以及 Spark 的調優措施。
學習完 Spark 的知識點,你最好去做一個 Spark 實時處理項目,綜合地練習一下。
4. 新技術實踐階段
最近一兩年其實也出現了一些新技術,這些新技術也受到越來越多的企業關注,所以對於我們來說,還是有必要去學習它的。
比如實時處理框架 Flink,現在受到了很多企業關注。還有比如做多維分析、時效性特別高的軟件,像 ClickHouse、Kudu、Kylin 以及 Druid。
還有 Elastic Stack(ELK),即海量日誌平臺。其實 ELK 並不算是很新,放在這裏是提醒你注意下學習大數據平臺知識的時候, 也應該學習到 ELK。
在新技術實踐階段,也最好做一個項目,把這些知識進行綜合性地練習。
5. 機器學習階段
因爲大數據發展的下一步就是人工智能機器學習,這兩個領域中間的界限現在非常模糊了。在大數據開發的過程中也經常會去調用一些機器學習算法,所以還是要儲備一定的機器學習知識,這樣的話我們才更有競爭力。
對於機器學習,我們經常用 Python 語言,所以你可以去學習 Python,再去學習一些機器學習框架,比如 TensorFlow 以及 Spark MLib。
最後當然你也可以搞一個項目去練習,夯實你所學習到的大數據和算法的知識。
所以整體上我建議大家按照這 14 個階段來學習。這同樣也是我在拉勾教育開設的《大數據開發高薪訓練營》的整體思路,就是爲了幫助大家喫透大數據開發。
通過這個路線,你就可以把當下大數據領域主流技術,新潮流技術以及延伸的機器學習知識,來貫通學習。
如果你對大數據開發感興趣,沒有大數據基礎也沒有關係,都可掃碼諮詢拉勾教育的 《大數據開發高薪訓練營》,還可以獲得大數據開發學習路線高清原圖,以及免費學習資料,更有 1v1 就業指導,趕緊掃描下方二維碼。
▽ 掃碼諮詢
部分資料截圖
雙十二口碑訓練營5折起抄底,贈送價值6399元超值禮品,最後50個名額,等你來搶!
點擊閱讀原文,也可諮詢。