原创 Kafka與Spark案例實踐

1.概述 Kafka系統的靈活多變,讓它擁有豐富的拓展性,可以與第三方套件很方便的對接。例如,實時計算引擎Spark。接下來通過一個完整案例,運用Kafka和Spark來合理完成。 2.內容 2.1 初始Spark 在大數據應用場景中,面對

原创 Kafka KRaft模式探索

1.概述 Kafka是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。其核心組件包含Producer、Broker、Consumer,以及依賴的Zookeeper集羣。其中Zookeeper集羣是Kafka用

原创 Clickhouse實時數倉建設

1.概述 Clickhouse是一個開源的列式存儲數據庫,其主要場景用於在線分析處理查詢(OLAP),能夠使用SQL查詢實時生成分析數據報告。今天,筆者就爲大家介紹如何使用Clickhouse來構建實時數倉,來滿足一些實時性要求較高的使用場

原创 Kafka核心組件詳解

1.概述 對於Kafka的學習,在研究其系統模塊時,有些核心組件是指的我們去了解。今天給大家來剖析一下Kafka的一些核心組件,讓大家能夠更好的理解Kafka的運作流程。 2.內容 Kafka系統設計的非常優秀,它的核心組件由生產者、消費者

原创 Kafka與ELK實現一個日誌系統

1.概述 客戶端應用程序在運行過程中可能會產生錯誤,例如調用服務端接口超時、客戶端處理業務邏輯發生異常、應用程序突然閃退等。這些異常信息都是會產生日誌記錄的,並通過上報到指定的日誌服務器進行壓縮存儲。 本篇博客以一個應用實時日誌分析平臺作爲

原创 SQL解析器詳解

1.概述 最近,有同學留言關於SQL解析器方面的問題,今天筆者就爲大家分享一下SQL解析器方便的一些內容。 2.內容 2.1 SQL解析器是什麼? SQL解析與優化是屬於編輯器方面的知識,與C語言這類編程語言的解析上是類似的。SQL解析主要

原创 Kafka Eagle分佈式模式

1.概述 最近有同學留言,Kafka Eagle的分佈式模式功能怎麼使用,如何部署安裝?今天筆者就爲大家來詳細介紹一下Kafka Eagle的分佈式模式功能的安裝和使用。 2.內容 首先,這裏我們需要說明一下,Kafka Eagle已經更名

原创 Kafka流處理內幕詳解

1.概述 流處理是一種用來處理無窮數據集的數據處理引擎。通常無窮數據集具有以下幾個特點: 無窮數據:持續產生的數據,它們通常會被稱爲流數據。例如:銀行信用卡交易訂單、股票交易就、遊戲角色移動產生的數據等; 低延時:流數據通常都是實時處理,

原创 Hive和Spark分區策略

1.概述 離線數據處理生態系統包含許多關鍵任務,最大限度的提高數據管道基礎設施的穩定性和效率是至關重要的。這邊博客將分享Hive和Spark分區的各種策略,以最大限度的提高數據工程生態系統的穩定性和效率。 2.內容 大多數Spark Job

原创 Kafka2.8安裝

1.概述 最近Kafka官網發佈了2.8版本,在該版本中引入了KRaft模式。鑑於新版本和新特性的引入,相關使用資料較少,那邊本篇博客筆者將爲大家介紹Kafka2.8的安裝和使用。 2.內容 2.1  版本介紹 2.1.1 目的 從Kafk

原创 預測算法之多元線性迴歸

1.概述 在機器學習裏面,常見的預測算法有以下幾種: 簡易平均法:包括幾何平均法、算數平均法及加權平均法; 移動平均法:包括簡單移動平均法和加權移動平均法; 指數平滑法:包括一次指數平滑法和二次指數平滑法,以及三次指數平滑法; 線性迴歸法

原创 如何系統的瞭解Kafka

1.概述 在大數據的浪潮下,時時刻刻都會產生大量的數據。比如社交媒體、博客、電子商務等等,這些數據會以不同的類型存儲在不同的平臺裏面。爲了執行ETL(提取、轉換、加載)操作,需要一個消息中間件系統,該系統應該是異步和低耦合的,即來自各種存儲

原创 Kafka Fetch Session剖析

1.概述 最近有同學留言在使用Kafka的過程中遇到一些問題,比如在拉取的Topic中的數據時會拋出一些異常,今天筆者就爲大家來分享一下Kafka的Fetch流程。 2.內容 2.1 背景 首先,我們來了解一下,Fetch Session的

原创 Kafka數據每5分鐘同步到Hive

1.概述 最近有同學留言諮詢Kafka數據落地到Hive的一些問題,今天筆者將爲大家來介紹一種除Flink流批一體以外的方式(流批一體下次再單獨寫一篇給大家分享)。 2.內容 首先,我們簡單來描述一下數據場景,比如有這樣一個數據場景,有一批

原创 Kafka分佈式查詢引擎

1.概述 Kafka是一個分佈式消息中間件系統,裏面存儲着實際場景中的數據。Kafka原生是不支持點查詢的,如果我們想對存儲在Topic中的數據進行查詢,可能需要對Topic中的數據進行消費落地,然後構建索引(或者數據落地到自帶所以的存儲系