台部落DanielMaster

文章目錄1.緩存操作2.Checkpoint機制3.DriverHA4.代碼實戰4.1Driver代碼實現4.2DriverHA的配置5.SparkStreaming程序的部署、升級與維護6.調優建議6.1設置合理的CPU6.2接

2020-07-02 05:39:07

Maven依賴 <properties> <spark.version>2.2.2</spark.version> </properties> <dependencies> <dependency> <groupId>or

2020-06-28 05:01:43

文章目錄1.transform2.updateStateByKey3.window map (func) 對DStream中的各個元素進行func函數操作，然後返回一個新的DStream flatMap (func) 與m

2020-06-23 20:05:34

如圖所示，輸入報錯，網卡重啓失敗執行也只能看到eth1，看不到eth0 這種錯誤大多數出現在複製虛擬機的時候，只需修改配置文件即可 vi /etc/sysconfig/network-scripts/ifcfg-eth0

2020-06-22 08:22:36

字符串格式的xml <?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Java Tutorials and Examples</tit

2020-06-22 08:22:36

獻給那些在一堆文本文件中找不到自己想要的字段的同行 package util; import java.io.File; import java.io.FileNotFoundException; import java.io.

2020-06-22 08:22:36

效果: 代碼: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>計算器</title> <style type="text/css">

2020-06-22 08:22:36

在開發完Spark作業之後，就該爲作業配置合適的資源了文章目錄優化一：資源調優優化二：Java虛擬機垃圾回收調優1.檢測垃圾回收機制2.優化executor內存比例這裏有一張Spark工作的原理圖，能幫大家更好理解Spark調

2020-06-22 08:22:33

文章目錄優化一：提高shuffle並行度優化二：過濾key優化三：預處理優化四：兩階段聚合優化五：分拆進行join 數據傾斜，英文data skew，就是由於數據分佈不均勻，造成的數據以及任務計算時間有差異，絕大多數task任務執

2020-06-16 14:09:15

Spark中的性能消耗主要都是在shuffle環節，對shuffle部分進行調優是很有必要的 Spark中負責shuffle過程的執行、計算和處理的組件主要就是ShuffleManager。在0.8的版本中出現了優化之後的Hash

2020-06-13 02:13:10

開發中常常對Spark程序的效率是比較重視的，筆者總結了Spark開發中十一種調優的思路文章目錄優化一：避免創建重複的RDD優化二：儘可能複用同一個RDD優化三：對多次使用的RDD進行持久化1.持久化策略2.持久化策略的選擇3.

2020-06-10 21:43:58

Scala package blog import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType,

2020-06-09 13:04:11

文章目錄一、Receiver方式1.kafka基於receiver方式一2.kafka基於receiver方式二——使用checkpoint二、Direct方式1.kafka基於direct方式一2.kafka基於direct方式

2020-06-09 13:04:11

一個Spark Submit可以同時提交多個sql並行跑嗎？這裏來探究一下這個問題這裏模擬一個需求來說明一個submit命令是否可以並行提交多個Job 需求：按列拼接三個表（不是按key來join，與key無關）例如 1 A

2020-06-09 13:04:11

Maven依賴 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactI

2020-05-26 05:11:08