Kafka之Producer

通過https://www.cnblogs.com/tree1... 已經對consumer有了一定的瞭解。producer比consumer要簡單一些。

一、舊版本producer

0.9.0.0版本以前，是由scala編寫的舊版本producer。

入口類：kafka.producer.Producer

代碼示例：

Properties properties = new Properties();
        properties.put("metadata.broker.list", "kafka01:9092,kafka02:9092");
        properties.put("serializer.class", "kafka.serializer.StringEncoder");
        properties.put("request.requird.acks", "1");
        ProducerConfig config = new ProducerConfig(properties);
        Producer<String, String> producer = new Producer<String, String>(config);
        KeyedMessage<String,String> msg = new KeyedMessage<String,String>("topic","hello");
        Producer.send(msg);

舊版本是同步機制，等待響應。吞吐性很差。在0.9.0.0版本以後，正式下架了。

舊版本的方法：

send   發送
close   關閉
sync   異步發送  有丟失消息的可能性

二、新版本producer

舊版本producer由scala編寫，0.9.0.0版本以後，新版本producer由java編寫。

新版本主要入口類是：org.apache.kafka.clients.producer.KafkaProducer

常用方法：

send  實現消息發送主邏輯
close  關閉producer   
metrics  獲取producer的實時監控指標數據 比如發送消息的速率

Kafka producer要比consumer設計簡單一些，主要就是向某個topic的某個分區發送一條消息。partitioner決定向哪個分區發送消息。用戶指定key，默認的分區器會根據key的哈希值來選擇分區，如果沒有指定key就以輪詢的方式選擇分區。也可以自定義分區策略。

確定分區後，producer尋找到分區的leader，也就是該leader所在的broker，然後發送消息，leader會進行副本同步ISR。

producer會啓兩個線程，主線程封裝ProducerRecord類，序列化後發給partitioner，然後發送到內存緩衝區。

另一個I/O線程，提取消息分batch統一發送給對應的broker。

示例代碼：

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i));
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

1、構造Properties對象，bootstrap.servers key.serializer value.serializer是必須指定的。

2、使用Properties構造KafkaProducer對象。

3、構造ProducerRecord 指定topic 分區 key value。

4、KafkaProducer的send方法發送。

5、關閉KafkaProducer。

Properties主要參數：

bootstrap.servers 和consumer一樣，指定部分broker即可。而且broker端如果沒有配ip地址，要寫成主機名。

key.serializer value.serializer 序列化參數一定要全類名沒有key也必須設置。

acks 三個值

0： producer完全不管broker的處理結果回調也就沒有用了並不能保證消息成功發送但是這種吞吐量最高

all或者-1： leader broker會等消息寫入並且ISR都寫入後纔會響應，這種只要ISR有副本存活就肯定不會丟失，但吞吐量最低。

1：默認的值 leader broker自己寫入後就響應，不會等待ISR其他的副本寫入，只要leader broker存活就不會丟失，即保證了不丟失，也保證了吞吐量。

buffer.memory 緩衝區大小字節默認是33554432 就是發送消息的內存緩衝區大小過小的話會影響吞吐量

compression.type 設置是否壓縮消息默認值是none 壓縮後可以降低IO開銷提高吞吐，但是會增大CPU開銷。

支持三種： GZIP Snappy LZ4 性能 LZ4 > Snappy > GZIP

retries 發送消息重試的次數默認0 不重試重試可能造成重複發送可能造成亂序

retry.backoff.ms 設置重試間隔默認100毫秒

batch.size 調優重要的參數 batch小吞吐量也會小 batch大內存壓力會大默認值是16384 16KB

linger.ms 發送延時默認是0 0的話不用等batch滿就發送延時的話可以提高吞吐看具體情況進行調整

max.request.size producer能夠發送最大消息的大小默認1048576字節如果消息很大需要修改它

request.timeout.ms 發送請求後broker在規定時間返回默認30秒超過就是超時了。

Send方法

fire and forget 就是上邊的示例

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i));
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

異步回調不阻塞

Properties properties = new Properties();
        properties.put("bootstrap.servers", "kafka01:9092,kafka02:9092");
        properties.put("acks", "all");
        properties.put("retries", 0);
        properties.put("batch.size", 16384);
        properties.put("linger.ms", 1);
        properties.put("buffer.memory", 33554432);
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);
        for (int i = 1; i <= 600; i++) {
            kafkaProducer.send(new ProducerRecord<String, String>("z_test_20190430", "testkafka0613"+i),new Callback(){
              public void onCompletion(RecordMetadata metadata, Exception e) {
                         if(e != null) {
                            e.printStackTrace();
                         } else {
                            System.out.println("The offset of the record we just sent is: " +         metadata.offset());
                         }
                     }           
            });
            System.out.println("testkafka"+i);
        }
        kafkaProducer.close();

同步發送無限等待返回

producer.send（record).get()

重試機制

如果需要自定義重試機制，就要在回調裏對不同異常區別對待，常見的幾種如下：

可重試異常

LeaderNotAvailableException :分區的Leader副本不可用，這可能是換屆選舉導致的瞬時的異常，重試幾次就可以恢復
NotControllerException:Controller主要是用來選擇分區副本和每一個分區leader的副本信息，主要負責統一管理分區信息等，也可能是選舉所致。

NetWorkerException :瞬時網絡故障異常所致。

不可重試異常

SerializationException:序列化失敗異常

RecordToolLargeException:消息尺寸過大導致。

示例代碼：

 producer.send(myRecord,
                   new Callback() {
                       public void onCompletion(RecordMetadata metadata, Exception e) {
                           if(e ==null){
                               //正常處理邏輯
                               System.out.println("The offset of the record we just sent is: " + metadata.offset()); 
                               
                           }else{
                                   
                                 if(e instanceof RetriableException) {
                                    //處理可重試異常
                                    ......
                                 } else {
                                    //處理不可重試異常
                                    ......
                                 }
                           }
                       }
                   });

分區機制

partitioner決定向哪個分區發送消息。用戶指定key，默認的分區器會根據key的哈希值來選擇分區，如果沒有指定key就以輪詢的方式選擇分區。也可以自定義分區策略。

對於有key的消息，java版本的producer自帶的partitioner會根據murmur2算法計算消息key的哈希值。然後對總分區數求模得到消息要被髮送到的目標分區號。

自定義分區策略：

創建一個類，實現org.apache.kafka.clients.producer.Partitioner接口

主要分區邏輯在Partitioner.partition中實現：通過topic key value 一同確定分區

在構造KafkaProducer得Properties中設置partitioner.class 爲自定義類注意是全類名

序列化機制

常用的serializer

ByteArraySerializer.class

ByteBufferSerializer.class

BytesSerializer.class

DoubleSerializer.class

IntegerSerializer.class

LongSerializer.class

StringSerializer.class

但是其他一些複雜的就需要自定義序列化：

1、定義數據格式

2、創建自定義序列化類，實現org.apache.kafka.common.serialization.Serializer接口

3、在KafkaProducer的Properties中設置key.serializer value.serializer爲自定義類

以上均爲單線程的情況，但producer是線程安全的，單線程適合分區較少的情況，分區較多可以多線程但對內存損耗較大。

更多實時計算，Kafka等相關技術博文，歡迎關注實時流式計算

http://)

一、舊版本producer

二、新版本producer

Properties主要參數：

Send方法

分區機制

序列化機制

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

做大數據一定要牢牢掌握的現象級技術！字節、阿里都重倉的神仙領域！

數據分析師在數據治理流程中承擔的角色

字節跳動 60K 大數據崗位要求曝光！DT 時代又一個風口來了？

再見，Spark！Flink 流批一體已成氣候!!!

淘寶雙十一實時數據顯示——Flink重要應用之一

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結