原创 spark-map-flatMap-以及聚合操作
FaltMap算子與Map算子的區別: 一、什麼時候使用FlatMap 當數據是一條數據對應多條數據的時候使用二、flatMap內的函數返回值必須是一個scala類型的集合才行三、Map內的函數返回值是一個對象聚合操作:例子一:使用
原创 迴歸問題-代價函數
點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注
原创 spark-IDEA之SBT打包
SBT打包代碼與依賴:這裏我使用的是SBT進行的打包: 1、創建assembly.sbt並在裏面寫:addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2") 2、Build.sbt
原创 SparkStreaming中的轉化操作之--有狀態操作主要是2種類型
有狀態轉化操作需要在你的StreamingContext中打開檢查點機制來確定容錯性,只需要傳遞一個目錄作爲參數給ssc.checkpoint()即可 1、滑動窗口: 上面的窗口時間是3,滑動時間是2;表示每隔2個批次就對前3個批次
原创 spark-數據分區
前提條件:第一點:只有當數據集多次被調用(例如:循環調用的時候),並且還是基於健的鏈接操作時,使用分區纔會有幫助。第二點:給定的RDD分區只被掃描一次的時候,適用於分區第三點:將數據進行分區以後,需要對其進行持久化。如果不進行持久化的話,
原创 sparkStreaming-檢查點機制與驅動器容錯
SparkStreaming的檢查點機制:檢查點機制是用來保障容錯性的主要機制。控制發生失敗時需要重算的狀態數:設置檢查點的話,那麼程序發生失敗的時候,可以直接通過檢查點的記錄來繼續計算,而不需要再重新算一遍。提供驅動器程序容錯:如果流計
原创 SparkStreaming中的窗口操作
SparkStreaming中的reduceByWindow窗口操作: 統計當前10S長度窗口中的數,每隔5S接收的數據格式是:樓下的也是用的以下數據112package spark.streaming.sparkStreaming.h
原创 迴歸問題之多變量線性迴歸算法
點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注
原创 迴歸問題之單變量線性迴歸算法
點贊 收藏 分享 文章舉報 成功路上的慢跑鞋 發佈了50 篇原創文章 · 獲贊 6 · 訪問量 2萬+ 私信 關注
原创 Spark-RDD懶加載
Transformation 操作是延遲計算的,也就是說從一個RDD 轉換生成另一個 RDD 的轉換操作不是馬上執行,需要等到有 Acion 操作的時
原创 spark-RDD(彈性分佈式數據集)
Spark中的RDD是一個不可變的分佈式對象集合,每個RDD都會被分爲多個分區,這些分區運行在集羣中的不同節點上。創建RDD兩種辦法:常用(讀取外部數據集) :testFile把程序中一個已有的集合傳給parallelize,不常用,佔
原创 spark-steaming的2種操作
sparkStreaming支持2種操作:1、轉化操作(transformation)會生成一個新的DStream,轉換操作分爲無狀態操作和有狀態操作a)無狀態操作:例如map、filter、reduceByKey等都是無狀態操作,因爲它
原创 3、算法-定容棧泛型
代碼 package base.第一章.揹包_隊列_和棧.數組實現定容棧.定容棧; /** * Created by MK on 2018/7/24. * public class FiexedCapacityStackOfIte
原创 算法-2個返回函數的遞歸
多個函數的遞歸 public class two個函數的遞歸 { private static int fibonacci(int n) { if (n == 0) { return 0;