原创 JVM概要

文章目錄JVM面試爲什麼講JVM?JVM參數JVM內存模型內存結構垃圾回收的算法JVM內存泄漏 JVM面試 JVM:Java Virtual Machine 在面試中會JVM是經常被問的,關於JVM的常問問題一般有: JVM的內

原创 Spark Streaming整合Kafaka

文章目錄Kafka版本選擇環境準備zookeeper和kafka單節點部署啓動zookeeper和kafkaSpark Streaming整合Kafaka依賴創建Direct Stream代碼1.0代碼2.0代碼打成jar包(瘦包

原创 Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)官網翻譯

在設計上,Spark Streaming集成Kafka對於 0.10版本的類似於0.8版本(現在只講Direct Stream,其它不管,這裏沒有receiver)。 Spark StreamingKafka對於 0.10版本的集

原创 SparkCore之PartitionNum和ShuffleManager生產調優

文章目錄RDD算子中分區數(並行度)的調整ShuffleManager源碼HashShuffleManager架構解析 RDD算子中分區數(並行度)的調整 生產+面試。 下面①②③: ①是textFile和reduceByKey的

原创 初識Spark Streaming

文章目錄Spark Streaming特點Spark Streaming概覽Spark Streaming應用場景流處理過程Spark Streaming案例 參考官網:http://spark.apache.org/strea

原创 JVM深入淺出(一)

文章目錄JVM的Server模式和Client模式的區別(瞭解)運行模式JVM裏的參數類型詳解以及實操jinfo命令詳解以及實操PrintFlags系列參數及實操-Xmx 、-Xms、-Xss參數及實操JVM運行時數據區JVM的內

原创 Spark Streaming之基本概念

文章目錄依賴初始化StreamingContextDiscretized Streams (DStreams)Input DStreams and ReceiversTransformations on DStreamsUpdat

原创 JVM深入淺出(二)

Java代碼的執行流程以及字節碼 對於碼農來說,寫的都是一個一個的xxx.java文件,只有碼農認識,機器是不認識這些文件的。這一堆的java文件必須要經過一個編譯的過程,變成一堆的xxx.class文件,這個class文件是放在

原创 Spark Shuffle operations-官網翻譯

參考官網:http://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations Shuffle operations Certain

原创 Scala05

文章目錄伴生對象 vs 伴生類把一個函數賦給一個變量匿名函數函數的克里化currying隱式轉換模式匹配偏函數 PartitialFunctionTuple 伴生對象 vs 伴生類 Scala中的伴生對象 對於Object內部的方

原创 SparkCore之運行架構

參考官網:http://spark.apache.org/docs/latest/cluster-overview.html Cluster Mode Overview 集羣模式概述 This document gives a

原创 Shell腳本中的併發

主要記錄一下Shell腳本中的命令的併發和串行執行以及如何控制進程的數量。 默認的情況下,Shell腳本中的命令是串行執行的,必須等到前一條命令執行完後才執行接下來的命令,但是如果我有一大批的的命令需要執行,而且互相又沒有影響的情

原创 HiveQL執行過程

參考之前的博客:https://blog.csdn.net/liweihope/article/details/89740863 Hive是基於hadoop的數據倉庫工具,可以將結構化的數據文件映射成一張數據表,並且提供SQL

原创 Spark-SQL之自定義數據源的構建

文章目錄Build-In數據源third-party packages自定義數據源的構建常見的trait通過JDBCRelation的源碼瞭解外部數據源的執行自己實現一個外部數據源(核心重要) Build-In數據源 前面學習的數

原创 SparkSQL之DataSource

文章目錄Parquet 文件加載Parquet文件Partition Discovery 分區探測Schema 合併ORC文件Hive表用JDBC讀其它數據庫Performance Tuning性能優化Caching Data I