目錄
1.本身目標
先成專才,在擴展面
選擇的方向:
大數據
人工智能
區塊兒鏈篇
2.依據51JOB,BOSS直聘上的搜索
(1)大數據開發工程師要求:
hadoop
spark
python語言
java語言的開發經驗
scale 語言
數據模型兒
雲服務,雲計算
http 協議
jvm 運行機制 和 內存管理
(2)AI智能要求:
相關的算法原理
其餘與上面的大數據相類似
3.Spark 優勢
融:spark 與 Hadoop 可以完好集成平滑融合
與python不衝突,於JAVA,SCALA良好兼容
建立在 JVM 上的服務框架
目:對於 大數據 和 AI 都有很好的適用性
新:2013年 Apach樹立爲開源項目
2015年開始 應用於國內的各BAT大廠
4.學習曲線
先進行基本集羣環境搭建
先學習了 Spark Core 之後,核心源碼
在學習 Spark SQL
在學習 Spark Streaming
在學習 Spark 的調優,特別是 shullf 調優
5.相關術語總結如下
HDFS:分佈式文件系統(HDFS)
統一管理分佈在集羣上的文件系統稱爲分佈式文件系統
POSIX:可移植操作系統接口 (讀寫權限,分組權限等!)
內存:暫時存放CPU中的運算數據
MapReduce:面向大數據並行處理的計算模型、框架( map(映射)和 reduce(歸約) )
事例:
把作業交給多個計算機去完成。
部署到N臺機器上去,然後把論文集分成N份,一臺機器跑一個作業。然後再把結果進行整合 !!
迭代:迭代是重複反饋過程的活動,其目的通常是爲了逼近所需目標或結果
master:控制
worker:工作者
YARN:資源管理系統(CPU,內存)
作用: 其中ResourceManager負責整個系統的資源管理和分配,而ApplicationMaster負責單個應用程序的管理
Hive:基於Hadoop的一個數據倉庫工具,將結構化的數據文件映射爲一張數據庫表!
將sql語句轉換爲MapReduce任務進行運行。
ETL:數據提取轉化加載
Extract-Transform-Load的縮寫,用來描述將數據從來源端經過萃取(extract)、轉置(transform)、加載(load)至目的端的過程
元數據:提供關於信息資源或數據的一種結構化的數據
作用:描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能
RDD:彈性分佈數據集
以操作本地集合的方式來操作分佈式數據集的抽象實現
http://www.aboutyun.com/thread-7214-1-1.html
序列化:把對象轉換爲字節序列的過程稱爲對象的序列化
作用: 把對象的字節序列永久地保存到硬盤上,通常存放在一個文件中
網絡上傳送對象的字節序列
抽象:抽象是從衆多的事物中抽取出共同的、本質性的特徵,而捨棄其非本質的特徵
組件:組件(Component)是對數據和方法的簡單封裝
引擎:一個搜索引擎由搜索器 、索引器 、檢索器 和用戶接口 四個部分組成