慢慢認識大數據

今天的內容
今天上午，跟客戶一起討論了導航的網絡架構的問題。其他時間都是在整理一些文檔。中午的時候開了一週的例會，下午的時候是整理申請的東西。晚上的時候是開會
今天上午還解決了，瘦終端序列號的問題。
這些都不再談了。
主要是晚上的時候，跟ES還有大數據的人一起討論問題。我接觸到了幾個自己不是很精深的問題。

恆定的頻率

說一點題外的話，我現在是比較信PT的。我認爲，世界上是有像勻速直線運動一樣恆定優美的頻率的，只要讓自己時刻保持這樣的頻率，美好的東西自然都會被吸引到身邊。這是我現在相信的東西。我要不斷強化自己的這個思想，讓它生出更多精神的力量。

按照PT的教法,瞭解一個東西，要分三個步驟的，what,how,why.

what

我瞭解一個東西，喜歡從歷史開始。
Spark是個框架。
Spark是個計算引擎。
Spark是個開源的集羣計算環境。
這三個回答，可以解決Spark是個什麼東西的問題。
Spark誕生的地方是,UC Berkeley AMP Lab,加州大學伯克利分校的AMP實驗室。
這個學校我是知道的。BSD就是從這個學校搞出來的。
AMP實驗室我還對它瞭解不深刻的。
總之，我現在知道Spark是應用在大數據方向上的一個東西。

用我的理解來看。
在大數據方面，有個比較流行的東西，Hadoop MapReduce。
Spark從字面的意思看，是電火花的意思。隱含着它計算是很快的。
大數據可以看成是一種資源的。
利用這種資源的工具就是Hadoop MapReduce或者是Spark。
具體的應用層面，就是【數據挖掘】和【機器學習】。
如果你要進行【數據挖掘】和【機器學習】這兩個方面的工作，
很多時候就需要迭代MapReduce算法。要重複的。
不停地算不停地算。
這裏有一個問題，運算的中間結果怎麼處理?
Hadoop是把中間結果放在了HDFS上。
這個HDFS是hadoop分佈式文件系統的一個簡稱。
洋文的名字是: Hadoop Distributed File System
它是個很不錯的東西，能在便宜的機器上佈置的。
所以提到HDFS的時候，依我的水平，我只能把它理解成硬盤。
Hadoop把中間結果是放在這個地方的。
Spark把中間結果是放在內存當中的。所以Spark會快一點的。
它用了個技術叫【內存分佈數據集】，在進行大量迭代計算的時候，
能夠很好地優化負載的。

所以，從這一段的描述可以看出，Spark是有兩個優點的。
一個就是快，一個就是優化負載。這兩個優點大概都是起源一個原因，就是使用了內存分佈數據集。那麼，這又是爲什麼呢，因爲Spark是和Scala語言緊密集成的。
所以邏輯關係應該是下面這樣的。
1.Spark和Scala語言緊密繼承。
2.Spark可以像操作本地集合一樣操作分佈式數據集
3.Spark很快而且負載優化能力很強。

實際上,Spark是一種對Hadoop的補充，在Hadoop文件系統中可以運行Spark的。
可以應用一個框架叫做Mesos。這是一個第三方集羣框架。
它是Spark和Hadoop的媒人。
他們主要是用來構建【分析應用程序】的，就是大數據的分析技術。

有一些基本的東西要知道。
1.Spark比Hadoop快100倍。
2.Spark有80個高級運算符。
3.Spark有很多庫。
SQL,DataFrames,MLib,GraphX,Spark Streaming
4.支持多種資源管理器
Hadoop YARN,Apache Mesos

how

要寫好這一點是不容易的。

Spark跟Hadoop是比較類似的東西。

慢慢認識大數據

恆定的頻率

what

how

22大街

啥是廣點通

慢慢認識大數據

啥是移動廣告跨屏

航信概要設計-6

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結