原创 Spark 內存管理 原

Spark 內存管理詳解 通常我們討論的是Executor中的內存管理,自1.6版本後spark的內存分爲兩個部分, 堆內內存和堆外內存。下面詳細針對這兩個部分進行詳細的介紹。 堆內內存 堆內內存的大小,由spark應用程序啓動時的--e

原创 記Structured Streaming 2.3.1的OOM排查過程 原 薦

記Structured Streaming 2.3.1的OOM排查過程 緣起 最近在使用Structured Streaming開發一套自助配置SQL的來生成流式作業的平臺,在測試的過程中發現有些作業長時間運行後會有Executor端的OO

原创 Spark源碼閱讀——streaming模塊作業生成和提交 原

Spark源碼閱讀——streaming模塊作業生成和提交 通常我們開發spark-streaming都會用到如下代碼: val sparkConf = new SparkConf() .set("xxx", "") ..

原创 jstorm源碼閱讀(2) —— supervisor簡介 原

jstorm源碼閱讀(2)—— supervisor簡介 模塊功能 Heartbeat 模塊用於彙報supervisor心跳信息,包括hostname,workerports,current time和during time等信息,被

原创 spring源碼閱讀筆記(一) 原

spring源碼閱讀筆記(一)     最近工作不忙,抽空閱讀了下《spring源碼深度剖析》,特此做一下記錄。     先說下BeanFactoryPostProcessor接口和BeanPostProcessor接口,這

原创 分佈式存儲初探 原 薦

分佈式存儲初探 緣起 最近公司內部在做dmp服務,目前的方案都是搭建不同的redis集羣,將數據灌到redis集羣中系統查詢服務供線上使用。但是隨着數據量的增大以及數據源的多樣性,再加上線上服務需要多機房的支持,後續繼續使用redis集羣

原创 JVM內存管理和垃圾回收 原

JVM內存管理和垃圾回收   JVM內存模型其實就是JVM在運行程序時的一個內存分佈情況,主要分一下幾個區域: 1.PC寄存器:     用於存儲每個線程下一步將執行的JVM指令,native方法則PC寄存器中不存儲任何信息。   2.JV

原创 Yarn在Shuffle階段內存不足問題(error in shuffle in fetcher) 轉

最近在使用MR跑一個任務的時候shuffle階段出現OOM,這個問題之前從來沒有遇到過,上網找了一下,發現網友也遇到過想似的問題,以下是轉載的該問題的解決方法: 原文地址:http://blog.csdn.net/bigdatahappy/

原创 MySQLdb安裝 and 使用 原

安裝 wget http://tenet.dl.sourceforge.net/project/mysql-python/mysql-python-test/1.2.4b4/MySQL-python-1.2.4b4.tar.gz tar z

原创 Spark源碼閱讀——任務提交過程 原 薦

Spark 源碼閱讀——任務提交過程 當我們在使用spark編寫mr作業是,最後都要涉及到調用reduce,foreach或者是count這類action來觸發作業的提交,所以,當我們查看這些方法的源碼時,發現底層都調用了SparkCon

原创 ng日誌按天切換腳本 原

#! /bin/bash NGINX_PATH='/home/q/nginx/logs' LOG_FILE_TIME="$(date -d "1 day ago" "+%Y-%m-%d")" LOG_FILE="${NGINX_PATH}

原创 kafka 0.10.1.0 權限驗證源碼分析 原

初始化流程圖 ChannelBuilders.create創建ChannelBuilder對應關係如下: switch (securityProtocol) {     case SSL:         requireNonNullMo

原创 DRF資源分配算法 原

DRF算法 最近在看yarn的一些東西,看到DRF的時候特別糾結爲什麼第一個選的是B,查了一些資料,尼瑪全是從書上扒下來的,千篇一律,沒有任何參考價值。後來從mesos的一篇文章中看到,原來第一個選誰都可以,選A選B的結果是一樣的。下面記

原创 docker run nginx問題 原

nginx默認啓動是在daemon模式下,所以在使用命令docker run -d nginx /usr/sbin/nginx時,容器啓動nginx後會立刻退出,所以需要使用nginx的前臺運行模式,需要在配置文件中加“daemon off

原创 使用hashmap優化壓縮Redis內存使用 原

使用hashmap優化壓縮Redis內存使用 背景 近來公司內部dsp架構升級,需要能夠根據請求中的設備id實時的獲取到該設備的用戶畫像相關信息,於是選用每天使用離線任務把用戶數據灌入redis裏面,供線上服務實時查詢。 需求評估 需求是