Spark學習理由及曲線

目錄

 

1.本身目標:

2.依據51JOB,BOSS直聘上的搜索:

3.Spark 優勢

4.學習曲線

5.相關術語總結如下


1.本身目標

先成專才,在擴展面
選擇的方向: 
    大數據
    人工智能
    區塊兒鏈篇

 

2.依據51JOB,BOSS直聘上的搜索

(1)大數據開發工程師要求:
        hadoop
        spark
        python語言
        java語言的開發經驗
        scale 語言
        數據模型兒
        雲服務,雲計算
        http 協議
        jvm 運行機制  和  內存管理

(2)AI智能要求:
        相關的算法原理
        其餘與上面的大數據相類似

 

3.Spark 優勢

融:spark   與 Hadoop 可以完好集成平滑融合
        與python不衝突,於JAVA,SCALA良好兼容
        建立在 JVM  上的服務框架
        
目:對於 大數據  和 AI 都有很好的適用性

新:2013年 Apach樹立爲開源項目
         2015年開始 應用於國內的各BAT大廠 

 

4.學習曲線

先進行基本集羣環境搭建

先學習了 Spark Core 之後,核心源碼

在學習 Spark SQL 

在學習 Spark Streaming

在學習 Spark 的調優,特別是 shullf 調優

 

5.相關術語總結如下

HDFS:分佈式文件系統(HDFS)
                        統一管理分佈在集羣上的文件系統稱爲分佈式文件系統 
        POSIX:可移植操作系統接口  (讀寫權限,分組權限等!)
        內存:暫時存放CPU中的運算數據
        MapReduce:面向大數據並行處理的計算模型、框架( map(映射)和 reduce(歸約) )
                        事例:
                                  把作業交給多個計算機去完成。
                                  部署到N臺機器上去,然後把論文集分成N份,一臺機器跑一個作業。然後再把結果進行整合    !! 
        迭代:迭代是重複反饋過程的活動,其目的通常是爲了逼近所需目標或結果
        master:控制
        worker:工作者
        YARN:資源管理系統(CPU,內存)
                    作用:    其中ResourceManager負責整個系統的資源管理和分配,而ApplicationMaster負責單個應用程序的管理
        Hive:基於Hadoop的一個數據倉庫工具,將結構化的數據文件映射爲一張數據庫表!
                     將sql語句轉換爲MapReduce任務進行運行。
        ETL:數據提取轉化加載
                    Extract-Transform-Load的縮寫,用來描述將數據從來源端經過萃取(extract)、轉置(transform)、加載(load)至目的端的過程
        元數據:提供關於信息資源或數據的一種結構化的數據
                    作用:描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能
        RDD:彈性分佈數據集
                     以操作本地集合的方式來操作分佈式數據集的抽象實現
                     http://www.aboutyun.com/thread-7214-1-1.html
        序列化:把對象轉換爲字節序列的過程稱爲對象的序列化
                      作用: 把對象的字節序列永久地保存到硬盤上,通常存放在一個文件中
                                     網絡上傳送對象的字節序列
        抽象:抽象是從衆多的事物中抽取出共同的、本質性的特徵,而捨棄其非本質的特徵
        組件:組件(Component)是對數據和方法的簡單封裝
        引擎:一個搜索引擎由搜索器 、索引器 、檢索器 和用戶接口 四個部分組成

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章