原创 Spark RDD API使用指南

​ 在Spark快速入門-RDD文章中學了spark的RDD。spark包含轉換和行動操作。在進行spark程序開發的過程中,不可避免的要與spark rdd的轉換和行動操作打交道。本文會介紹spark rdd常用的轉換和行動操作。

原创 大型網站技術架構核心原理剖析 什麼是軟件架構 高性能 高可用 可伸縮 可擴展 安全性

什麼是軟件架構 維基百科定義:軟件架構是指有關軟件整體結構與組件的抽象描述,用於指導大型軟件系統各個方面的設計。 軟件架構5大要素: 性能 可用性 伸縮性 擴展性 安全性 可以通過考察這5大要素來衡量一個軟件架構設計的優劣。 高性能

原创 學習筆記 | 深入理解Java內存模型 Java內存模型

Java內存模型 Java 虛擬機在執行 Java 程序的過程中會把它所管理的內存劃分爲若干個不同的數據區域。這些區域都有各自的用途,以及創建和銷燬的時間,有的區域隨着虛擬機進程啓動而存在,有些區域則是依賴用戶線程的啓動和結束而建立和銷燬

原创 使用Prometheus+Grafana快速打造高逼格監控平臺 Prometheus 介紹 Prometheus 監控實戰

Prometheus 介紹 Prometheus 是一套開源監控系統,使用Go語言開發,是 Google BorgMon 監控系統的類似實現。 Prometheus 的基本原理是通過HTTP協議週期性抓取被監控組件的狀態,任意組件只要提供

原创 從0開始學大數據-Hive性能優化篇 表設計層面優化 語法和參數層面優化 Hive架構層面優化

在工作中使用hive比較多,也寫了很多HiveQL。這裏從三個方面對 Hive 常用的一些性能優化進行了總結。 表設計層面優化 利用分區表優化 分區表 是在某一個或者幾個維度上對數據進行分類存儲,一個分區對應一個目錄。如果篩選條件裏有分區

原创 使用Prometheus+Grafana快速打造高逼格監控平臺

Prometheus 介紹 Prometheus 是一套開源監控系統,使用Go語言開發,是 Google BorgMon 監控系統的類似實現。 Prometheus 的基本原理是通過HTTP協議週期性抓取被監控組件的狀態,任意組件只要提供

原创 從0開始學大數據-數據倉庫理論篇

什麼是數據倉庫 數據倉庫(DW)是一個 面向主題的、集成的、穩定的、隨時間變化的數據的集合,以用於支持管理決策過程。 建立數據倉庫的目的是爲企業高層系統地組織、理解和使用數據以便進行戰略決策。 數據倉庫的特徵 數據倉庫有以下幾大特徵:

原创 從0開始學大數據-數據倉庫建模

爲什麼要數據倉庫建模 數據模型是數據組織和存儲方法,它強調從業務、數據存取和使用角度合理存儲數據。有了適合業務和基礎數據存儲環境的模型,那麼大數據就能獲得以下好處: 性能:良好的數據模型能幫助我們快速查詢所需要的數據,減少數據的 I/

原创 從0開始學大數據-Hive性能優化篇

在工作中使用hive比較多,也寫了很多HiveQL。這裏從三個方面對 Hive 常用的一些性能優化進行了總結。 表設計層面優化 利用分區表優化 分區表 是在某一個或者幾個維度上對數據進行分類存儲,一個分區對應一個目錄。如果篩選條件裏有分區

原创 從0開始學大數據-Hive基礎篇

Hive起源於Facebook,是基於 Hadoop HDFS 分佈式文件系統的分佈式 數據倉庫 架構。它爲數據倉庫的管理提供了許多功能:數據ETL(抽取、轉換和加載)工具、數據存儲管理和大型數據集的查詢和分析能力。同時Hive還定義了類

原创 大型網站技術架構核心原理剖析

什麼是軟件架構 維基百科定義:軟件架構是指有關軟件整體結構與組件的抽象描述,用於指導大型軟件系統各個方面的設計。 軟件架構5大要素: 性能 可用性 伸縮性 擴展性 安全性 可以通過考察這5大要素來衡量一個軟件架構設計的優劣。 高性能

原创 一篇文章帶你快速搞懂HBase RowKey設計

前面和大家分享了一些HBase入門基礎知識。HBase作爲一個數據庫,在使用中無外乎增刪改查操作,這些操作在HBase中都是和RowKey緊密相關的,所以優秀的RowKey設計方案是非常重要的。今天就來說說如何進行HBase的RowKey

原创 福利!你要的入門HBase正確姿勢

HBase簡介 ​ HBase是一個分佈式的、面向列的開源數據庫存儲系統,是對Google論文BigTable的實現,具有高可靠性、高性能和可伸縮性,它可以處理分佈在數千臺通用服務器上的PB級的海量數據。BigTable的底層是通過G

原创 Apache Spark – Comparing RDD, Dataframe and Dataset APIs

Spark提供了三種主要的與數據相關的API:RDD、DataFrame、Dataset RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) RDD RDD是Spark

原创 Spark RDD Api使用指南

​ 在Spark快速入門-RDD文章中學了spark的RDD。spark包含轉換和行動操作。在進行spark程序開發的過程中,不可避免的要與spark rdd的轉換和行動操作打交道。本文會介紹spark rdd常用的轉換和行動操作。