慢慢認識大數據

今天的內容
今天上午,跟客戶一起討論了導航的網絡架構的問題。其他時間都是在整理一些文檔。中午的時候開了一週的例會,下午的時候是整理申請的東西。晚上的時候是開會
今天上午還解決了,瘦終端序列號的問題。
這些都不再談了。
主要是晚上的時候,跟ES還有大數據的人一起討論問題。我接觸到了幾個自己不是很精深的問題。

恆定的頻率

說一點題外的話,我現在是比較信PT的。我認爲,世界上是有像勻速直線運動一樣恆定優美的頻率的,只要讓自己時刻保持這樣的頻率,美好的東西自然都會被吸引到身邊。這是我現在相信的東西。我要不斷強化自己的這個思想,讓它生出更多精神的力量。

按照PT的教法,瞭解一個東西,要分三個步驟的,what,how,why.

what

我瞭解一個東西,喜歡從歷史開始。
Spark是個框架。
Spark是個計算引擎。
Spark是個開源的集羣計算環境。
這三個回答,可以解決Spark是個什麼東西的問題。
Spark誕生的地方是,UC Berkeley AMP Lab,加州大學伯克利分校的AMP實驗室。
這個學校我是知道的。BSD就是從這個學校搞出來的。
AMP實驗室我還對它瞭解不深刻的。
總之,我現在知道Spark是應用在大數據方向上的一個東西。

用我的理解來看。
在大數據方面,有個比較流行的東西,Hadoop MapReduce。
Spark從字面的意思看,是電火花的意思。隱含着它計算是很快的。
大數據可以看成是一種資源的。
利用這種資源的工具就是Hadoop MapReduce或者是Spark。
具體的應用層面,就是【數據挖掘】和【機器學習】。
如果你要進行【數據挖掘】和【機器學習】這兩個方面的工作,
很多時候就需要迭代MapReduce算法。要重複的。
不停地算不停地算。
這裏有一個問題,運算的中間結果怎麼處理?
Hadoop是把中間結果放在了HDFS上。
這個HDFS是hadoop分佈式文件系統的一個簡稱。
洋文的名字是: Hadoop Distributed File System
它是個很不錯的東西,能在便宜的機器上佈置的。
所以提到HDFS的時候,依我的水平,我只能把它理解成硬盤。
Hadoop把中間結果是放在這個地方的。
Spark把中間結果是放在內存當中的。所以Spark會快一點的。
它用了個技術叫【內存分佈數據集】,在進行大量迭代計算的時候,
能夠很好地優化負載的。

所以,從這一段的描述可以看出,Spark是有兩個優點的。
一個就是快,一個就是優化負載。這兩個優點大概都是起源一個原因,就是使用了內存分佈數據集。那麼,這又是爲什麼呢,因爲Spark是和Scala語言緊密集成的。
所以邏輯關係應該是下面這樣的。
1.Spark和Scala語言緊密繼承。
2.Spark可以像操作本地集合一樣操作分佈式數據集
3.Spark很快而且負載優化能力很強。

實際上,Spark是一種對Hadoop的補充,在Hadoop文件系統中可以運行Spark的。
可以應用一個框架叫做Mesos。這是一個第三方集羣框架。
它是Spark和Hadoop的媒人。
他們主要是用來構建【分析應用程序】的,就是大數據的分析技術。

有一些基本的東西要知道。
1.Spark比Hadoop快100倍。
2.Spark有80個高級運算符。
3.Spark有很多庫。
SQL,DataFrames,MLib,GraphX,Spark Streaming
4.支持多種資源管理器
Hadoop YARN,Apache Mesos

how

要寫好這一點是不容易的。

Spark跟Hadoop是比較類似的東西。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章