原创 spark源碼剖析(二,ShuffleReader)
版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro spark的shuffle過程連接了job的前後兩個stage 除了第一個stage的數據是讀取hdfs,hbase
原创 spark sql 自定義udf函數
import org.apache.spark.sql.functions._ def compare(value_missing: String, value: String): Boolean = { var fla
原创 文檔模板Latex
\documentclass[UTF8,10pt,a4paper]{article} \usepackage{ctex} \usepackage{amsmath} \usepackage{amsfonts} \usepackage
原创 報告模板LaTex
% !TeX spellcheck = en_GB % WangSheying於2015/11/2整理,TJU北洋園校區 % TeXLive2015+TeXstudio個人推薦,可在線升級usepackage,比較方便 %*
原创 估算the JVM heap中object佔用內存大小
org.apache.spark.util.collection.SizeTracker#takeSample spark在shuffle的read和write階段,都涉及到採樣估算集合佔用內存大小 /** * Take
原创 scala疑惑(一) ListSet添加元素
object Test extends Logging { def main(args: Array[String]): Unit = { val a=scala.collection.immutable.ListS
原创 spark源碼剖析(一,job調用流程)
最近領導讓做一次關於spark的分享,於是專門把spark的流程看了一邊,做一下記錄, 也是爲了練練markdown,僅此而已。 版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBoo
原创 spark中shuffle算子彙總
版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro ShuffleDependency 我們先在idea中搜素一下ShuffleDependency 可以看到,生成
原创 case class的序-----Ordering和Ordered
版本信息 scala 2.11.8 jdk 1.8 idea 2019 MacBook Pro Ordering 在scala裏要自定義一個類的話,一般都是case class,例如 case class Student(na