原创 讀《Spark內核設計的藝術 架構設計與實現》筆記之二----Spark模塊設計

Spark模塊設計 整個Spark主要由Spark Core,Spark SQL,Spark Streaming,GraphX,MLlib組成,Spark Core是整個Spark體系的核心引擎,Spark SQL,Spark Str

原创 讀《Spark內核設計的藝術 架構設計與實現》筆記之之一----初識Spark

初識Spark Spark是一個通用的並行計算框架,由加州伯克利大學的AMP實驗室開發於2009年,並於2010年開源.2013年在Apache旗下成長爲大數據領域最活躍得開源框架之一, Spark也是基於map reduce算法模

原创 Spark Shuffle 階段用到的重要數據結構源碼詳解

源碼分析基於spark2.2.0 SizeTracker 重要程度*** SizeTracker 定義了對集合進行採樣和集合所佔內存字節大小的估算. SizeTracker重要的屬性: SAMPLE_GROWTH_RATE:Do

原创 RRR算子中使用之前創建的SparkSession對象時報java.lang.NullPointerException解決方案

報錯Demo package com.mycase.test import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession object Test

原创 Linux 下MySQL的兩種常用安裝方式,以及初始化配置,以及可能出現亂碼問題的解決

安裝前建議切換到root用戶來安裝MySQL。 方式一:rpm安裝 安裝之前需要檢查當前系統中是否已經存在MySQL以及MySQL的相關庫,如果存在,需要卸載乾淨才能順利安裝 成功,否則安裝可能會遇到各種各樣的問題。 卸載MySQ

原创 YARN資源調度策略

侵刪! YARN雖然是從MapReduce發展而來,但其實更偏底層,它在硬件和計算框架之間提供了一個抽象層,用戶可以方便的基於YARN編寫自己的分佈式計算框架,而不用關心硬件的細節。由此可以看出YARN的核心功能:資源抽象、資

原创 oozie是什麼

oozie是什麼? 一、前言   我的業務數據在Oracle服務器中存着,在我進行離線任務計算時,需要用到存儲於Oracle中的業務數據。誇張點說,我的離線計算任務將持續有一到兩個鐘頭。 在我進行離線計算之前,參與計算的業務數據要保證

原创 Linux定時任務Crontab命令詳解

轉載於 https://www.cnblogs.com/YangJieCheng/p/7991660.html 侵刪!!! linux 系統則是由 cron (crond) 這個系統服務來控制的。Linux 系統上面原本就有非常

原创 oozie4.3.1編譯

oozie編譯 一、版本 oozie版本:4.3.1 JDK:1.8 HADOOP:2.7.7 hive:1.2.2 pig:0.16.0 sqoop:1.4.7 spark:2.3.0 hbase:0.94.27 tomcat:8

原创 Spark開發性能調優

文章轉載於:https://blog.csdn.net/vinfly_li/article/details/79415342 侵刪 Spark開發性能調優 標籤(空格分隔): Spark –Write By Vin 1.

原创 Spark數據傾斜調優

原文鏈接:http://tech.meituan.com/spark-tuning-pro.html 前言 繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後,本文作爲《Spark性能優化指南》的高級篇,將深入分析數

原创 linux常用命令

1、ls命令          就是list的縮寫,通過ls 命令不僅可以查看linux文件夾包含的文件,而且可以查看文件權限(包括目錄、文件夾、文件權限)查看目錄信息等等          常用參數搭配:          ls -a

原创 VMware 下Hadoop集羣環境搭建之虛擬機克隆,Hadoop環境配置

在上一篇我們完成了ContOS網絡配置以及JDK的安裝,這一篇將在上一篇的基礎上繼續講解虛擬機的克隆,hadoop環境搭建 傳送門: VMware 下Hadoop集羣環境搭建之新建虛擬機 VMware 下Hadoop集羣環境搭建之爲虛

原创 spark架構

 Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架,最初在2009年由加州大學伯克利分校的AMPLab開發,並於2010年成爲Apache的開源項目之一,與Hadoop和Storm等其他大數據和MapRe

原创 常用設計模式

Num1:單例模式 基本概念:保證一個類僅有一個實例,並提供一個訪問它的全局訪問點。 常見寫法: 懶漢式 public class Singleton { /* 持有私有靜態實例,防止被引用,此處賦值爲null,目的是實現延遲