台部落大数据技术架构

一、Kafka的存儲機制 kafka通過topic來分主題存放數據，主題內有分區，分區可以有多個副本，分區的內部還細分爲若干個segment。所謂的分區其實就是在kafka對應存儲目錄下創建的文件夾，文件夾的名字是主題名加上分區編號，

2020-07-04 23:46:33

Elasticsearch架構概述ElasticSearch是現在技術前沿的大數據引擎，常見的組合有ES+Logstash+Kibana作爲一套成熟的日誌系統，其中Logstash是ETL工具，Kibana是數據分析展示平臺。ES讓人驚

2020-07-04 23:46:33

關於數據倉庫，早期分享過不少基礎類文章，偶然間看到知乎上這篇關於OLAP的深度解讀，從技術發展，產品選型，執行優化等方面做了詳細的剖析，分享來給大家看看！全文10000字，讀完需要30分鐘！我也覺得有點長，要不先收藏？文 |

2020-07-04 23:46:33

原計劃在2019年年底發佈的 Apache Spark 3.0.0 今天終於趕在下週二舉辦的 Spark Summit AI 會議之前正式發佈了! Apache Spark 3.0.0 自2018年10月02日開發到目前已經經歷了近21

2020-06-26 21:49:10

前面我們已經分享過幾篇Kafka的文章，最近簡單梳理了下Kafka內核相關的知識，涵蓋了Kafka架構總結，副本機制，控制器，高水位機制，日誌或消息存儲，消息發送與消費機制等方面知識。文末含對應的Kafka內核思維導圖，供參考。 1、

2020-06-16 02:48:27

作爲Hadoop的分佈式計算框架，MapReduce扮演着分佈式計算的任務，適用於離線批計算任務。Spark本身不具備存儲數據功能，通常基於HDFS。我們經常會在各類文章中看到類似這樣的描述：Spark是基於內存計算的，其速度遠快於Ha

2020-06-16 02:48:27

Kylin 作爲汽車之家的核心 OLAP 引擎，服務於多個業務線與商業數據產品，應用於流量、線索、用戶行爲、推薦效果等方面的數據分析場景。目前已有 500+ 個 Kylin Cube，存儲約 300 T，整體 Segment 數約1.6

2020-06-16 02:48:26

本文包括七個小節：1、什麼是數據湖；2、數據湖的基本特徵；3、數據湖基本架構；4、各廠商的數據湖解決方案；5、典型的數據湖應用場景；6、數據湖建設的基本過程；7、總結。受限於個人水平，謬誤在所難免，歡迎同學們一起探討，批評指正，不吝賜教

2020-06-16 02:48:26

ClickHouse是一個用於數據分析（OLAP）的列式數據庫管理系統（column-oriented DBMS），誕生於“戰鬥民族”俄羅斯，由搜索巨頭Yandex公司開源。目前國內不少大廠在使用，包括騰訊、今日頭條、攜程、快手等，集羣

2020-06-16 02:48:26

導讀：隨着 IT 時代步入到 DT 時代，從數據中挖掘價值已經變得越來越重要。數據倉庫系統長期以來一直是企業 IT 架構的重要組成部分，並且逐步與大數據等技術相融合，已然成爲建設數據文化的智慧型企業的必然措施。本文主要針對數據倉庫建設中

2020-06-16 02:48:26

Avro（讀音類似於[ævrə]）是Hadoop的一個子項目，由Hadoop的創始人Doug Cutting（也是Lucene，Nutch等項目的創始人）牽頭開發。Avro是一個基於二進制數據傳輸高性能的中間件。在Hadoop的其他項目

2020-06-16 02:48:26

Kafka可以說是必知必會的了，首先面試大數據崗位的時候必問kafka，甚至現在java開發崗位也會問到kafka一些消息隊列相關的知識點。先來看看有哪些最新的Kafka相關面試點：一、基礎摸底 1.1、你們Kafka集羣的硬盤一共多

2020-06-16 02:48:26

導讀：58離線計算平臺基於 Hadoop 生態體系打造，單集羣4000+臺服務器，數百 PB 存儲，日40萬計算任務，面臨挑戰極大。58大數據平臺的定位主要是服務數據業務開發人員，提高數據開發效率，提供便捷的開發分析流程，有效支持數據倉

2020-06-16 02:48:26

快下班的時候突然收到zk、HBase宕機的告警，瞬間一萬匹草泥馬奔騰而過，但是問題終究得解決啊，搞起來。下圖爲master的日誌記錄：從上圖可以看到zk中/Hbase/replication/rs的節點信息無法獲取，然後我們立馬去檢查z

2020-06-16 02:48:26

JVM調優內存調優一般安裝好的HBase集羣，默認配置是給Master和RegionServer 1G的內存，而Memstore默認佔0.4，也就是400MB。顯然RegionServer給的1G真的太少了。 export HBA

2020-06-16 02:48:26