Spark學習理由及曲線

原創

威少SOS

2019-04-13 00:33

目錄

1.本身目標：

2.依據51JOB，BOSS直聘上的搜索：

3.Spark 優勢

4.學習曲線

5.相關術語總結如下

1.本身目標

先成專才，在擴展面
選擇的方向：
   大數據
   人工智能
   區塊兒鏈篇

2.依據51JOB，BOSS直聘上的搜索

（1）大數據開發工程師要求：
       hadoop
       spark
       python語言
       java語言的開發經驗
       scale 語言
       數據模型兒
       雲服務，雲計算
       http 協議
       jvm 運行機制和內存管理

（2）AI智能要求：
相關的算法原理
其餘與上面的大數據相類似

3.Spark 優勢

融：spark 與 Hadoop 可以完好集成平滑融合
       與python不衝突，於JAVA，SCALA良好兼容
       建立在 JVM 上的服務框架

目：對於大數據和 AI 都有很好的適用性

新：2013年 Apach樹立爲開源項目
2015年開始應用於國內的各BAT大廠

4.學習曲線

先進行基本集羣環境搭建

先學習了 Spark Core 之後，核心源碼

在學習 Spark SQL

在學習 Spark Streaming

在學習 Spark 的調優，特別是 shullf 調優

5.相關術語總結如下

HDFS：分佈式文件系統(HDFS)
                       統一管理分佈在集羣上的文件系統稱爲分佈式文件系統
       POSIX：可移植操作系統接口（讀寫權限，分組權限等！）
       內存：暫時存放CPU中的運算數據
       MapReduce：面向大數據並行處理的計算模型、框架（ map(映射)和 reduce(歸約) ）
                       事例：
                               把作業交給多個計算機去完成。
                               部署到N臺機器上去，然後把論文集分成N份，一臺機器跑一個作業。然後再把結果進行整合   ！！
       迭代：迭代是重複反饋過程的活動，其目的通常是爲了逼近所需目標或結果
       master：控制
       worker：工作者
       YARN：資源管理系統（CPU，內存）
                   作用：   其中ResourceManager負責整個系統的資源管理和分配，而ApplicationMaster負責單個應用程序的管理
       Hive：基於Hadoop的一個數據倉庫工具，將結構化的數據文件映射爲一張數據庫表！
                   將sql語句轉換爲MapReduce任務進行運行。
       ETL：數據提取轉化加載
                   Extract-Transform-Load的縮寫，用來描述將數據從來源端經過萃取（extract）、轉置（transform）、加載（load）至目的端的過程
       元數據：提供關於信息資源或數據的一種結構化的數據
                   作用：描述信息資源或數據本身的特徵和屬性，規定數字化信息的組織，具有定位、發現、證明、評估、選擇等功能
       RDD：彈性分佈數據集
                   以操作本地集合的方式來操作分佈式數據集的抽象實現
                   http://www.aboutyun.com/thread-7214-1-1.html
       序列化：把對象轉換爲字節序列的過程稱爲對象的序列化
                   作用：把對象的字節序列永久地保存到硬盤上，通常存放在一個文件中
                                   網絡上傳送對象的字節序列
       抽象：抽象是從衆多的事物中抽取出共同的、本質性的特徵，而捨棄其非本質的特徵
       組件：組件（Component）是對數據和方法的簡單封裝
       引擎：一個搜索引擎由搜索器、索引器、檢索器和用戶接口四個部分組成

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark學習理由及曲線

1.本身目標

2.依據51JOB，BOSS直聘上的搜索

3.Spark 優勢

4.學習曲線

5.相關術語總結如下

CPU 是什麼？

計算機的小數運算

原來我們一直在『回家』的路上

怎麼樣壓縮數據？

選擇物業開源小程序

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結