原创 spark-map-flatMap-以及聚合操作

FaltMap算子與Map算子的區別:    一、什麼時候使用FlatMap 當數據是一條數據對應多條數據的時候使用二、flatMap內的函數返回值必須是一個scala類型的集合才行三、Map內的函數返回值是一個對象聚合操作:例子一:使用

原创 迴歸問題-代價函數

點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注

原创 spark-IDEA之SBT打包

SBT打包代碼與依賴:這裏我使用的是SBT進行的打包: 1、創建assembly.sbt並在裏面寫:addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2")  2、Build.sbt

原创 SparkStreaming中的轉化操作之--有狀態操作主要是2種類型

  有狀態轉化操作需要在你的StreamingContext中打開檢查點機制來確定容錯性,只需要傳遞一個目錄作爲參數給ssc.checkpoint()即可 1、滑動窗口:  上面的窗口時間是3,滑動時間是2;表示每隔2個批次就對前3個批次

原创 spark-數據分區

前提條件:第一點:只有當數據集多次被調用(例如:循環調用的時候),並且還是基於健的鏈接操作時,使用分區纔會有幫助。第二點:給定的RDD分區只被掃描一次的時候,適用於分區第三點:將數據進行分區以後,需要對其進行持久化。如果不進行持久化的話,

原创 sparkStreaming-檢查點機制與驅動器容錯

SparkStreaming的檢查點機制:檢查點機制是用來保障容錯性的主要機制。控制發生失敗時需要重算的狀態數:設置檢查點的話,那麼程序發生失敗的時候,可以直接通過檢查點的記錄來繼續計算,而不需要再重新算一遍。提供驅動器程序容錯:如果流計

原创 SparkStreaming中的窗口操作

SparkStreaming中的reduceByWindow窗口操作:  統計當前10S長度窗口中的數,每隔5S接收的數據格式是:樓下的也是用的以下數據112package spark.streaming.sparkStreaming.h

原创 迴歸問題之多變量線性迴歸算法

點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注

原创 迴歸問題之單變量線性迴歸算法

點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注

原创 Spark-RDD懶加載

Transformation 操作是延遲計算的,也就是說從一個RDD 轉換生成另一個 RDD 的轉換操作不是馬上執行,需要等到有 Acion 操作的時

原创 spark-RDD(彈性分佈式數據集)

Spark中的RDD是一個不可變的分佈式對象集合,每個RDD都會被分爲多個分區,這些分區運行在集羣中的不同節點上。創建RDD兩種辦法:常用(讀取外部數據集)  :testFile把程序中一個已有的集合傳給parallelize,不常用,佔

原创 spark-steaming的2種操作

sparkStreaming支持2種操作:1、轉化操作(transformation)會生成一個新的DStream,轉換操作分爲無狀態操作和有狀態操作a)無狀態操作:例如map、filter、reduceByKey等都是無狀態操作,因爲它

原创 3、算法-定容棧泛型

代碼 package base.第一章.揹包_隊列_和棧.數組實現定容棧.定容棧; /** * Created by MK on 2018/7/24. * public class FiexedCapacityStackOfIte

原创 算法-2個返回函數的遞歸

多個函數的遞歸 public class two個函數的遞歸 { private static int fibonacci(int n) { if (n == 0) { return 0;