原创 Spark Streaming優化建議

文章目錄1.緩存操作2.Checkpoint機制3.DriverHA4.代碼實戰4.1Driver代碼實現4.2DriverHA的配置5.SparkStreaming程序的部署、升級與維護6.調優建議6.1設置合理的CPU6.2接

原创 Spark Streaming編程案例

Maven依賴 <properties> <spark.version>2.2.2</spark.version> </properties> <dependencies> <dependency> <groupId>or

原创 SparkStreaming常見transformation算子

文章目錄1.transform2.updateStateByKey3.window map (func) 對DStream中的各個元素進行func函數操作,然後返回一個新的DStream flatMap (func) 與m

原创 解決Centos6報錯:Device eth0 does not seem to be present

如圖所示,輸入 報錯,網卡重啓失敗 執行也只能看到eth1,看不到eth0 這種錯誤大多數出現在複製虛擬機的時候,只需修改配置文件即可 vi /etc/sysconfig/network-scripts/ifcfg-eth0

原创 java處理xml——Dom方式

字符串格式的xml <?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Java Tutorials and Examples</tit

原创 java查找一個字符串在一個文件夾下出現的次數與路徑

獻給那些在一堆文本文件中找不到自己想要的字段的同行 package util; import java.io.File; import java.io.FileNotFoundException; import java.io.

原创 js計算器案例

效果: 代碼: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>計算器</title> <style type="text/css">

原创 Spark四種性能調優思路(二)——資源調優

在開發完Spark作業之後,就該爲作業配置合適的資源了 文章目錄優化一:資源調優優化二:Java虛擬機垃圾回收調優1.檢測垃圾回收機制2.優化executor內存比例 這裏有一張Spark工作的原理圖,能幫大家更好理解Spark調

原创 Spark四種性能調優思路(四)——數據傾斜調優

文章目錄優化一:提高shuffle並行度優化二:過濾key優化三:預處理優化四:兩階段聚合優化五:分拆進行join 數據傾斜,英文data skew,就是由於數據分佈不均勻,造成的數據以及任務計算時間有差異,絕大多數task任務執

原创 Spark四種性能調優思路(三)——shuffle調優

Spark中的性能消耗主要都是在shuffle環節,對shuffle部分進行調優是很有必要的 Spark中負責shuffle過程的執行、計算和處理的組件主要就是ShuffleManager。在0.8的版本中出現了優化之後的Hash

原创 Spark四種性能調優思路(一)——開發調優

開發中常常對Spark程序的效率是比較重視的,筆者總結了Spark開發中十一種調優的思路 文章目錄優化一:避免創建重複的RDD優化二:儘可能複用同一個RDD優化三:對多次使用的RDD進行持久化1.持久化策略2.持久化策略的選擇3.

原创 Spark創建DataFrame的三種方式

Scala package blog import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType,

原创 Spark Streaming整合Kafka指南(超詳細)

文章目錄一、Receiver方式1.kafka基於receiver方式一2.kafka基於receiver方式二——使用checkpoint二、Direct方式1.kafka基於direct方式一2.kafka基於direct方式

原创 Spark利用多線程併發提交多個任務

一個Spark Submit可以同時提交多個sql並行跑嗎? 這裏來探究一下這個問題 這裏模擬一個需求來說明一個submit命令是否可以並行提交多個Job 需求:按列拼接三個表(不是按key來join,與key無關) 例如 1 A

原创 Spark Streaming整合HDFS

Maven依賴 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactI