台部落大数据技术架构

前言在前面文章《Kafka精進 | 一文讀懂Producer消息發送機制》中，我們從Kafka消息結構、序列化器、分區器及消息緩衝池等方面介紹了Producer端的原理，回顧示意圖如下：實際使用中，Producer端既要保證吞吐

2020-04-25 09:22:34

Region數量通常較少的region數量可使羣集運行的更加平穩，官方指出每個RegionServer大約100個regions的時候效果最好，理由如下：HBase的一個特性MSLAB，它有助於防止堆內存的碎片化，減輕垃圾回收Full

2020-04-25 09:22:34

Apache Kylin on Apache HBase 方案經過長時間的發展已經比較成熟，但是存在着一定的侷限性。Kylin 查詢節點當前主要的計算是在單機節點完成的，存在單點問題。而且由於 HBase 非真正列存的問題，Cuboid

2020-04-25 09:22:34

數據倉庫概念的提出都要追溯到上世紀了，我們認爲在大數據元年之前的數倉可以稱爲傳統數倉，而後隨着海量數據不斷增長，以及Hadoop生態不斷髮展，主要基於Hive/HDFS的離線數倉架構可以興起並延續至今，近幾年隨着Storm/Spark（

2020-04-21 06:31:58

Java工程中內存管理總是一個繞不過去的知識模塊，無論HBase、Flink還是Spark等，如果使用的JVM堆比較大同時對讀寫延遲等性能有較高要求，一般都會選擇自己管理內存，而且一般都會選擇使用部分堆外內存。HBase系統中有兩塊大的

2020-04-21 06:31:48

前言公司的hbase集羣早先是基於社區1.2.4版本進行搭建的，在時延表現方面起初並不十分理想，受GC尖刺的影響非常嚴重，針對P99響應時延也只能給業務提供不高於100毫秒的SLA承諾，因此在公司層面接入hbase的業務普遍還是面向近線

2020-04-21 06:31:48

1 前言HDFS（Hadoop Distributed File System）是我們熟知的Hadoop分佈式文件系統，是一個高容錯的系統，能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS以流式數據訪問模式存儲超大文件，

2020-04-21 06:31:48

前面我們總結了broker端的核心參數，一些服務端原理細節後面文章再聊。本文我們重點討論Producer端的消息發送機制，希望通過本文我們能整體掌握Producer端的原理。 1、Producer架構一圖勝千言，這裏筆者畫了一張Pr

2020-04-16 01:03:10

一、Kafka概述關於Kafka，我們在之前的文章裏也介紹，簡而言之Kafka是一個分佈式消息引擎與流處理平臺，經常用做企業的消息總線、實時數據管道，有時還可以當做存儲系統來用。基本架構如下： Kafka的設計遵循生產者消費者模式

2020-04-16 01:03:10

筆者根據之前的Spark作業開發經驗以及實踐積累，總結出了一套Spark作業的性能優化方案。整套方案主要分爲開發調優、資源調優、數據傾斜調優、shuffle調優幾個部分。開發調優和資源調優是所有Spark作業都需要注意和遵循的一些基本原

2020-03-23 09:49:58

1. 什麼是Hudi？Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析數據集在HDFS上的存儲。Hudi的主要目的是高效減少攝取過程中的數據延遲。由Uber開發並開源，HDFS上的分

2020-03-17 04:15:26

本文來自58集團數據平臺部負責人張祥於3月7日在DataFun社區的直播分享，主要介紹了58同城HBase平臺及其生態建設的實踐。視頻內容版權歸作者個人與DataFun社區所有。完整PPT請關注本公衆號，後臺回覆“58HBa

2020-03-12 15:34:09

這是使用 HBase 最不可避免的一個話題，就是 HBase 的性能調優，而且通常建立在我們對 HBase 內部運行機制比較瞭解的基礎上進行的，因此無論怎麼說，調優這塊都是一個相對複雜的事情。這一篇我們先來介紹與 HBase 內存最相關

2020-03-05 02:09:07

Kafka 是目前主流的分佈式消息引擎及流處理平臺，經常用做企業的消息總線、實時數據管道，本文挑選了 Kafka 的幾個核心話題，幫助大家快速掌握 Kafka，包括：Kafka 體系架構Kafka 消息發送機制Kafka 副本機制Kaf

2020-02-28 10:23:02

有狀態的計算作爲容錯以及數據一致性的保證，是當今實時計算必不可少的特性之一，流行的實時計算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分別提

2020-02-26 04:45:07