原创 Kafka精進 | Producer端核心參數及調優建議

前言 在前面文章《Kafka精進 | 一文讀懂Producer消息發送機制》中,我們從Kafka消息結構、序列化器、分區器及消息緩衝池等方面介紹了Producer端的原理,回顧示意圖如下: 實際使用中,Producer端既要保證吞吐

原创 HBase最佳實踐 | 合理的Region數量與大小

Region數量通常較少的region數量可使羣集運行的更加平穩,官方指出每個RegionServer大約100個regions的時候效果最好,理由如下:HBase的一個特性MSLAB,它有助於防止堆內存的碎片化,減輕垃圾回收Full

原创 Kylin on Parquet 介紹和快速上手

Apache Kylin on Apache HBase 方案經過長時間的發展已經比較成熟,但是存在着一定的侷限性。Kylin 查詢節點當前主要的計算是在單機節點完成的,存在單點問題。而且由於 HBase 非真正列存的問題,Cuboid

原创 實時數倉 | 你想要的數倉分層設計與技術選型

數據倉庫概念的提出都要追溯到上世紀了,我們認爲在大數據元年之前的數倉可以稱爲傳統數倉,而後隨着海量數據不斷增長,以及Hadoop生態不斷髮展,主要基於Hive/HDFS的離線數倉架構可以興起並延續至今,近幾年隨着Storm/Spark(

原创 HBase原理 | HBase內存管理之MemStore進化論

Java工程中內存管理總是一個繞不過去的知識模塊,無論HBase、Flink還是Spark等,如果使用的JVM堆比較大同時對讀寫延遲等性能有較高要求,一般都會選擇自己管理內存,而且一般都會選擇使用部分堆外內存。HBase系統中有兩塊大的

原创 HBase實踐 | HBase內核優化與吞吐能力建設

前言公司的hbase集羣早先是基於社區1.2.4版本進行搭建的,在時延表現方面起初並不十分理想,受GC尖刺的影響非常嚴重,針對P99響應時延也只能給業務提供不高於100毫秒的SLA承諾,因此在公司層面接入hbase的業務普遍還是面向近線

原创 HDFS原理 | 一文讀懂HDFS架構與設計

1 前言HDFS(Hadoop Distributed File System)是我們熟知的Hadoop分佈式文件系統,是一個高容錯的系統,能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS以流式數據訪問模式存儲超大文件,

原创 Kafka精進 | 一文讀懂Producer消息發送機制

前面我們總結了broker端的核心參數,一些服務端原理細節後面文章再聊。本文我們重點討論Producer端的消息發送機制,希望通過本文我們能整體掌握Producer端的原理。 1、Producer架構 一圖勝千言,這裏筆者畫了一張Pr

原创 Kafka精進 | Broker服務端核心參數解析

一、Kafka概述 關於Kafka,我們在之前的文章裏也介紹,簡而言之Kafka是一個分佈式消息引擎與流處理平臺,經常用做企業的消息總線、實時數據管道,有時還可以當做存儲系統來用。基本架構如下: Kafka的設計遵循生產者消費者模式

原创 深度好文 | Spark 性能優化指南

筆者根據之前的Spark作業開發經驗以及實踐積累,總結出了一套Spark作業的性能優化方案。整套方案主要分爲開發調優、資源調優、數據傾斜調優、shuffle調優幾個部分。開發調優和資源調優是所有Spark作業都需要注意和遵循的一些基本原

原创 Apache Hudi 架構原理與最佳實踐

1. 什麼是Hudi?Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析數據集在HDFS上的存儲。Hudi的主要目的是高效減少攝取過程中的數據延遲。由Uber開發並開源,HDFS上的分

原创 視頻 | 58同城HBase平臺及生態建設實踐

本文來自58集團數據平臺部負責人張祥於3月7日在DataFun社區的直播分享,主要介紹了58同城HBase平臺及其生態建設的實踐。視頻內容版權歸作者個人與DataFun社區所有。完整PPT請關注本公衆號,後臺回覆“58HBa

原创 HBase 性能調優第一彈:內存篇

這是使用 HBase 最不可避免的一個話題,就是 HBase 的性能調優,而且通常建立在我們對 HBase 內部運行機制比較瞭解的基礎上進行的,因此無論怎麼說,調優這塊都是一個相對複雜的事情。這一篇我們先來介紹與 HBase 內存最相關

原创 如何快速全面掌握Kafka?5000字吐血整理

Kafka 是目前主流的分佈式消息引擎及流處理平臺,經常用做企業的消息總線、實時數據管道,本文挑選了 Kafka 的幾個核心話題,幫助大家快速掌握 Kafka,包括:Kafka 體系架構Kafka 消息發送機制Kafka 副本機制Kaf

原创 Flink State 可以代替數據庫嗎?

有狀態的計算作爲容錯以及數據一致性的保證,是當今實時計算必不可少的特性之一,流行的實時計算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分別提