原创 Kafka的存儲機制以及可靠性

一、Kafka的存儲機制 kafka通過topic來分主題存放數據,主題內有分區,分區可以有多個副本,分區的內部還細分爲若干個segment。 所謂的分區其實就是在kafka對應存儲目錄下創建的文件夾,文件夾的名字是主題名加上分區編號,

原创 關於ElasticSearch性能調優幾件必須知道的事

Elasticsearch架構概述ElasticSearch是現在技術前沿的大數據引擎,常見的組合有ES+Logstash+Kibana作爲一套成熟的日誌系統,其中Logstash是ETL工具,Kibana是數據分析展示平臺。ES讓人驚

原创 關於OLAP數倉,這大概是史上最全面的總結!(萬字乾貨)

關於數據倉庫,早期分享過不少基礎類文章,偶然間看到知乎上這篇關於OLAP的深度解讀,從技術發展,產品選型,執行優化等方面做了詳細的剖析,分享來給大家看看! 全文10000字,讀完需要30分鐘! 我也覺得有點長,要不先收藏?   文 |

原创 Spark 3.0.0正式版發佈,開發近兩年新增了哪些特性?

原計劃在2019年年底發佈的 Apache Spark 3.0.0 今天終於趕在下週二舉辦的 Spark Summit AI 會議之前正式發佈了! Apache Spark 3.0.0 自2018年10月02日開發到目前已經經歷了近21

原创 乾貨 | Kafka 內核知識梳理,附思維導圖

前面我們已經分享過幾篇Kafka的文章,最近簡單梳理了下Kafka內核相關的知識,涵蓋了Kafka架構總結,副本機制,控制器,高水位機制,日誌或消息存儲,消息發送與消費機制等方面知識。文末含對應的Kafka內核思維導圖,供參考。 1、

原创 Spark速度比MapReduce快,不僅是內存計算

作爲Hadoop的分佈式計算框架,MapReduce扮演着分佈式計算的任務,適用於離線批計算任務。Spark本身不具備存儲數據功能,通常基於HDFS。我們經常會在各類文章中看到類似這樣的描述:Spark是基於內存計算的,其速度遠快於Ha

原创 Kylin 在汽車之家的最佳實踐大揭祕

Kylin 作爲汽車之家的核心 OLAP 引擎,服務於多個業務線與商業數據產品,應用於流量、線索、用戶行爲、推薦效果等方面的數據分析場景。目前已有 500+ 個 Kylin Cube,存儲約 300 T,整體 Segment 數約1.6

原创 數據湖 | 一文讀懂Data Lake的概念、特徵、架構與案例

本文包括七個小節:1、什麼是數據湖;2、數據湖的基本特徵;3、數據湖基本架構;4、各廠商的數據湖解決方案;5、典型的數據湖應用場景;6、數據湖建設的基本過程;7、總結。受限於個人水平,謬誤在所難免,歡迎同學們一起探討,批評指正,不吝賜教

原创 初識ClickHouse:來自戰鬥民族的OLAP利器

ClickHouse是一個用於數據分析(OLAP)的列式數據庫管理系統(column-oriented DBMS),誕生於“戰鬥民族”俄羅斯,由搜索巨頭Yandex公司開源。目前國內不少大廠在使用,包括騰訊、今日頭條、攜程、快手等,集羣

原创 Workflow 在數據倉庫建設中的應用與優化

導讀:隨着 IT 時代步入到 DT 時代,從數據中挖掘價值已經變得越來越重要。數據倉庫系統長期以來一直是企業 IT 架構的重要組成部分,並且逐步與大數據等技術相融合,已然成爲建設數據文化的智慧型企業的必然措施。本文主要針對數據倉庫建設中

原创 大數據之數據交換和存儲序列化利器 Avro

Avro(讀音類似於[ævrə])是Hadoop的一個子項目,由Hadoop的創始人Doug Cutting(也是Lucene,Nutch等項目的創始人)牽頭開發。Avro是一個基於二進制數據傳輸高性能的中間件。在Hadoop的其他項目

原创 Kafka 面試真題及答案,建議收藏

Kafka可以說是必知必會的了,首先面試大數據崗位的時候必問kafka,甚至現在java開發崗位也會問到kafka一些消息隊列相關的知識點。先來看看有哪些最新的Kafka相關面試點: 一、基礎摸底 1.1、你們Kafka集羣的硬盤一共多

原创 基於 Hadoop 的58同城離線計算平臺設計與實踐

導讀:58離線計算平臺基於 Hadoop 生態體系打造,單集羣4000+臺服務器,數百 PB 存儲,日40萬計算任務,面臨挑戰極大。58大數據平臺的定位主要是服務數據業務開發人員,提高數據開發效率,提供便捷的開發分析流程,有效支持數據倉

原创 HBase運維 | HBase宕機恢復案例一則

快下班的時候突然收到zk、HBase宕機的告警,瞬間一萬匹草泥馬奔騰而過,但是問題終究得解決啊,搞起來。下圖爲master的日誌記錄:從上圖可以看到zk中/Hbase/replication/rs的節點信息無法獲取,然後我們立馬去檢查z

原创 HBase比較高階的調優指南

JVM調優 內存調優 一般安裝好的HBase集羣,默認配置是給Master和RegionServer 1G的內存,而Memstore默認佔0.4,也就是400MB。顯然RegionServer給的1G真的太少了。 export HBA