大数据学习笔记——Kafka理论知识

Kafka基础组件
- Topics（主题）
  
  属于特定类别的消息流称为主题。数据存储在主题中。主题被拆分成分区。对于每个主题，Kafka保存一个分区的迷你妈妈。每个这样的分区包含不可变有序序列的消息。分区被实现为具有相等大小的一组分段文件。
- Partition（分区）
  
  主题可能有许多分区，因此它可以处理任意数量的数据。
- Partition offset（分区偏移）
  
  每个分区消息具有称为“offset”的唯一序列标识。
- Replicas of Partition（分区备份）
  
  副本只是一个分区的“备份”。副本从不读取或写入数据。它们用于方式数据丢失。
- Brokers（经纪人）
  
  代理是负责维护发布数据的简单系统。每个代理可以每个主题具有零个或多个分区。
  
  假设，如果在一个主题和N个代理中有N个分区，每个代理将有一个分区。
  
  假设，在一个主题中有N个分区并且多于N个代理（n+m），则第一个N代理将具有一个分区，并且下一个M代理将不具有用于改特定主题的任何分区。
  
  假设，在一个主题中有N个分区并且小于N个代理（n-m），每个代理将在它们之间具有一个或多个分区共享。由于代理之间的负载分布不相等，不推荐使用此方案。
- Kafka Cluster（Kafka集群）
  
  Kafka有多个代理被称为Kafka集群。可以扩展Kafka集群，无需停机。这些集群用于管理消息数据的持久性和复制。
- Producers（生产者）
  
  生产者是发送给一个或多个Kafka主题的消息的发布者。生产者向Kafka经纪人发送数据。每当生产者将消息发布给代理时，代理只需将消息附加到最后一个段文件。实际上，该消息将被附加到分区。生产者还可以向他们选择的分区发送消息。
- Consumers（消费者）
  
  Consumers从经纪人处读取数据。消费者订阅一个或多个主题，并通过从代理中提取数据来使用已发布的消息。
- Leader（领导者）
  
  “Leader”是负责给定分区的所有读取和写入的节点。每个分区都有一个服务器充当Leader。
- Follower（追随者）
  
  跟随领导者指令的节点被称为Follower。如果领导失败，一个追随者将自动成为新的领导者。跟随者作为正常消费者，拉取消息并更新其自己的数据存储。

Kafka集群
- Broker(代理)
  
  Kafka集群通常由多个代理组成以保持负载均衡。Kafka代理是无状态的，所以他们使用Zookeeper来维护它们的集群状态。一个Kafka代理实例可以每秒处理数十万次读取和写入，每个Broker可以处理TB级别的消息，而没有性能影响。Kafka经纪人领导选举由Zookeeper完成。
- Zookeeper
  
  Zookeeper用于管理和协调Kafka代理。Zookeeper服务主要用于通知生产者和消费者Kafka系统中存在任何新代理或Kafka系统中代理失败。根据Zookeeper接收到关于代理的存在或失败的通知，然后产品和消费者采取决定并开始与某些其他代理协调他们的任务。
  
  Zookeeper中存储Kafka的基本元数据，例如关于主题、代理、消费者偏移（队列读取器）等信息。
- Producers（生产者）
  
  生产者将数据推送给经纪人。当新代理启动时，所有生产者搜索它并自动向该新代理发送消息。Kafka生产者不等待来自代理的确认，并且发送消息的速度与代理可以处理的一样快。
- Consumers（消费者）
  
  因为Kafka代理是无状态的，这意味着消费者必须通过使用分区偏移来维护已经消耗了多少消息。如果消费者确认特定的消息便宜，则意味着消费者已经消费了所有先前的消息。消费者向代理发送异步拉取请求，以具有准备好消耗的字节缓冲区。消费者可以简单地通过提供偏移值来快退或跳到分区中的任何点。消费者偏移值由Zookeeper通知。

Kafka工作流程
- 发布-订阅工作流程
  1. 生产者定期向主题发送数据
  2. Kafka Broker将所有消息存储在该特定主题配置的分区，它确保消息在分区中平等共享
  3. 消费者订阅主题
  4. Kafka向消费者提供主题的当前偏移，并将偏移量保存在Zookeeper中
  5. 消费者将定期请求Kafka新消息
  6. Kafka收到来自生产者的消息，将这些消息推送转发给消费者
  7. 消费者消费处理消息，并向Kafka Broker发送确认
  8. Kafka收到确认后，更新偏移值，并更新Zookeeper中的偏移值
  9. 重复以上流程。消费者也可以随时回退或跳转到特定偏移量，阅读消息
- 队列消息/用户组工作流程
  1. 生产者以固定间隔向某个主题发送消息
  2. Kafka Broker将所有消息存储在该特定主题配置的分区，类似于“发布-订阅“的方案
  3. 单个消费者订阅特定主题
  4. Kafka以“发布-订阅消息”相同的方式与消费者交互，直到新消费者以相同的“组ID”订阅相同的主题
  5. 一旦新消费者接入，Kafka将其操作切换到共享模式，并在两个消费者之间共享数据。此共享将继续，直到用户数达到为该特定主题配置的分区数
  6. 一旦消费者的数量超过分区的数量，新消费者将不会接收任何进一步的消息，直到现有消费者取消订阅，空出分区。

参考文献：
> Apache kafka中文手册
 > Kafka官方网站

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大数据学习笔记——Kafka理论知识

Kafka基础组件

Topics（主题）

Partition（分区）

Partition offset（分区偏移）

Replicas of Partition（分区备份）

Brokers（经纪人）

Kafka Cluster（Kafka集群）

Producers（生产者）

Consumers（消费者）

Leader（领导者）

Follower（追随者）

Kafka集群

Broker(代理)

Zookeeper

Producers（生产者）

Consumers（消费者）

Kafka工作流程

发布-订阅工作流程

队列消息/用户组工作流程

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

【2024-05-21】以茶会友

大數據學習筆記——使用Solr建立HBASE索引

大數據學習筆記——Kafka理論知識

ImportError: cannot import name 'json_util' from 'bson'

隨筆之Tensorflow2.0學習筆記

Spring配置Druid及多數據源配置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結