原创 Spark性能調優2-總結分享

1、Spark調優背景 目前Zeppelin已經上線一段時間,Spark作爲底層SQL執行引擎,需要進行整體性能調優,來提高SQL查詢效率。本文主要給出調優的結論,因爲涉及參數很多,故沒有很細粒度調優,但整體調優方向是可以得出的。

原创 Spark streaming 作業需要注意的問題

根據實踐,本文不斷更新中。 1、java.lang.OutOfMemoryError: GC overhead limit exceeded 分析:因爲streaming是長進程服務,如果當初分配堆太小,運行很長時間後會出現GC

原创 三年工作經歷總結(創業公司、中小公司和大廠經歷)

前記 回想三年前辦完手續離校那天,懷着感恩拖着箱子離開魏公村的母校,對未來工作滿懷憧憬,希望能爲社會做點什麼,能對愛自己和自己愛的人更好。不知覺三年過去,三年時間雖然說不上很長,但也有一些點滴想記錄下來,希望若干年後再回過頭來看能

原创 Spark性能調優1-測試記錄

  1、調優背景     Spark作爲Zeppelin的SQL底層執行引擎,通過Thriftserver處理jdbc連接,爲提高硬件資源利用率、IO帶寬和內存利用率,特針對性的進行Spark性能調優,目的是提高多租戶環境下Spark S

原创 阿里工作第一年感悟

明天就開始在家辦公,趁年的尾巴還沒過完回顧下去年經歷。 寫到這裏時,內心不禁沉重起來,來到新公司這一年,付出的心力、腦力、體力遠超過去,過的很不容易,對自己來說最大的挑戰不僅是工作本身,更是工作之外。就個人在業務部門的經歷總體來說

原创 淺談對數據中臺理解

背景 ​跟同學朋友聊天的時候會被問到什麼是數據中臺,這個概念從阿里提出並實踐已經有4年左右,但這個概念今年是真正在互聯網圈內流行,很多人都聽說這個概念,但它到底是什麼,有什麼用,可以用在哪些場景卻很模糊,這裏聊聊個人的理解。 數據

原创 OLAP領域技術及應用

背景 這幾年因工作跟OLAP結緣,想借這個機會整理一下OLAP領域的技術、原理及應用,後續會就裏面的點進行總結分析,一方面作爲對個人思考的激勵,另一方面分享出來讓更多人對OLAP有更豐富的認識。 OLAP這個題目太大,個人計劃對部

原创 30分鐘概覽OLAP——起源,概念及現狀

本文主要面對OLAP入門同學,讀者可以對OLAP起源、核心概念和當前發展趨勢有一定理解。 OLAP起源 OLAP(Online analytical processing),即聯機分析處理,主要用於支持企業決策管理分析。數據庫概念

原创 基於Spark streaming的SQL服務實時自動化運維

####設計背景 spark thriftserver目前線上有10個實例,以往通過監控端口存活的方式很不準確,當出故障時進程不退出情況很多,而手動去查看日誌再重啓處理服務這個過程很低效,故設計利用Spark streaming去

原创 30分鐘入門DSL工具Antlr4——概念、案例

本文主要面向初學者介紹Antlr4,一款常用語詞法語法解析器生成的第三方工具包。全文主要回答幾個問題: 1、antlr的是什麼? 2、antlr的功能有哪些,如何使用? 3、在公司中使用antlr案例? 不知道各位是如何關注到

原创 Spark 序列化問題全解

在Spark應用開發中,很容易出現如下報錯: org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCle

原创 OLAP技術應用——位運算原理及應用

背景 位圖(bitmap)是一種基於bit位數組的數據結構,在大數據場景下對於存儲和計算效率均有奇效。 假如將10億連續的用戶ID存在int數組,需要10億個32位int,佔用存儲3.72G左右,如果改用bit數組存儲,每一個bi

原创 畢業三年工作小結

前記 回想三年前辦完手續離校那天,懷着感恩拖着箱子離開魏公村的母校,對未來工作滿懷憧憬,希望能爲社會做點什麼,能對愛自己和自己愛的人更好。不知覺三年過去,三年時間雖然說不上很長,但也有一些點滴想記錄下來,希望若干年後再回過頭來看能

原创 從業務視角看開源數據存儲技術選型

背景 在業務場景技術選型的過程中,存儲技術通常是必不可少的一環,而當前存儲技術繁雜多樣,如何迅速選擇合適業務的技術非常重要。本文根據業務特點抽象出核心需求,根據不同需求採取對應的最佳方案。 業務需求抽象 業務特點抽象由廣到窄分爲如下幾

原创 基於idea+spring-mvc+mybatis+tomcat搭建web應用

背景 最近工作中需要開發一些web項目開始學習使用Spring、mybatis搭建web項目,因爲這裏面涉及的組件範圍比較多,網上的資料良莠不齊(看多了都是淚),對於新手而言很容易混雜,這片博客根據個人嘗試重新組織整理。 本文除了介紹