原创 spark源碼剖析(二,ShuffleReader)

版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro spark的shuffle過程連接了job的前後兩個stage 除了第一個stage的數據是讀取hdfs,hbase

原创 spark sql 自定義udf函數

import org.apache.spark.sql.functions._ def compare(value_missing: String, value: String): Boolean = { var fla

原创 文檔模板Latex

\documentclass[UTF8,10pt,a4paper]{article} \usepackage{ctex} \usepackage{amsmath} \usepackage{amsfonts} \usepackage

原创 報告模板LaTex

% !TeX spellcheck = en_GB % WangSheying於2015/11/2整理,TJU北洋園校區 % TeXLive2015+TeXstudio個人推薦,可在線升級usepackage,比較方便 %*

原创 估算the JVM heap中object佔用內存大小

org.apache.spark.util.collection.SizeTracker#takeSample spark在shuffle的read和write階段,都涉及到採樣估算集合佔用內存大小 /** * Take

原创 scala疑惑(一) ListSet添加元素

object Test extends Logging { def main(args: Array[String]): Unit = { val a=scala.collection.immutable.ListS

原创 spark源碼剖析(一,job調用流程)

最近領導讓做一次關於spark的分享,於是專門把spark的流程看了一邊,做一下記錄, 也是爲了練練markdown,僅此而已。 版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBoo

原创 spark中shuffle算子彙總

版本信息 spark version 2.3.3 jdk 1.8 idea 2019 MacBook Pro ShuffleDependency 我們先在idea中搜素一下ShuffleDependency 可以看到,生成

原创 case class的序-----Ordering和Ordered

版本信息 scala 2.11.8 jdk 1.8 idea 2019 MacBook Pro Ordering 在scala裏要自定義一個類的話,一般都是case class,例如 case class Student(na