1. schema 註冊表
無論是使用傳統的Avro API自定義序列化類和反序列化類還是使用Twitter的Bijection類庫實現Avro的序列化與反序列化,這兩種方法都有一個缺點:在每條Kafka記錄裏都嵌入了schema,這會讓記錄的大小成倍地增加。但是不管怎樣,在讀取記錄時仍然需要用到整個 schema,所以要先找到 schema。有沒有什麼方法可以讓數據共用一個schema?
我們遵循通用的結構模式並使用"schema註冊表"來達到目的。"schema註冊表"的原理如下:
把所有寫入數據需要用到的 schema 保存在註冊表裏,然後在記錄裏引用 schema 的 ID。負責讀取數據的應用程序使用 ID 從註冊表里拉取 schema 來反序列化記錄。序列化器和反序列化器分別負責處理 schema 的註冊和拉取。
schema註冊表並不屬於Kafka,現在已經有一些開源的schema 註冊表實現。比如本文要討論的Confluent Schema Registry。
2. 案例說明
現有 schema 文件 user.json,其中內容如下:
{ "type": "record", "name": "User", "fields": [ {"name": "id", "type": "int"}, {"name": "name", "type": "string"}, {"name": "age", "type": "int"} ] }
需求:把這個 schema 中的內容註冊到 Confluent Schema Registry 中,Kafka Producer 和 Kafka Consumer 通過識別 Confluent Schema Registry 中的 schema 內容來序列化和反序列化。
3. 實操步驟
(1) 啓動 Confluent Schema Registry 服務
- Confluent 下載地址:https://www.confluent.io/download/,我這裏使用confluent-oss-4.1.1-2.11.tar.gz
- 下載好後上傳到服務器,解壓即可用
- 進入confluent-4.1.1/etc/schema-registry/目錄下,修改schema-registry.properties文件,內容及註釋如下:
# Confluent Schema Registry 服務的訪問IP和端口 listeners=http://192.168.42.89:8081 # Kafka集羣所使用的zookeeper地址,如果不配置,會使用Confluent內置的Zookeeper地址(localhost:2181) kafkastore.connection.url=192.168.42.89:2181/kafka-1.1.0-cluster # Kafka集羣的地址(上一個參數和這個參數配置一個就可以了) # kafkastore.bootstrap.servers=192.168.42.89:9092,192.168.42.89:9093,192.168.42.89:9094 # 存儲 schema 的 topic kafkastore.topic=_schemas # 其餘保持默認即可
- 啓動 Confluent Schema Registry
[root@confluent confluent-4.1.1]# bin/schema-registry-start etc/schema-registry/schema-registry.properties # 省略一些內容...... [2018-06-22 16:10:26,442] INFO Server started, listening for requests... (io.confluent.kafka.schemaregistry.rest.SchemaRegistryMain:45)
(2) 註冊 User 的 schema 註冊到對應的 topic 下
- 首先把原來的 schema 文件加上 "schema" 標記
{ "schema": "{ "type": "record", "name": "User", "fields": [ {"name": "id", "type": "int"}, {"name": "name", "type": "string"}, {"name": "age", "type": "int"} ] }" }
- 部分
"
需要轉義:
{ "schema": "{ \"type\": \"record\", \"name\": \"User\", \"fields\": [ {\"name\": \"id\", \"type\": \"int\"}, {\"name\": \"name\", \"type\": \"string\"}, {\"name\": \"age\", \"type\": \"int\"} ] }" }
- 註冊 schema 的命令如下
curl -X POST -H "Content-Type: application/vnd.schemaregistry.v1+json" \ --data '' \ http://192.168.42.89:8081/subjects/dev3-yangyunhe-topic001-value/versions
說明: <1> ''
之間需要填寫schema字符串 <2> 我用來測試的 topic 爲 dev3-yangyunhe-topic001
,而且我只對 Kafka 的 value 進行 avro 的序列化,所以註冊的地址爲http://192.168.42.89:8081/subjects/dev3-yangyunhe-topic001-value/versions
<3> http://192.168.42.89:8081
需要根據自己的配置進行修改
- 把轉義後 schema 填充到
--data ''
的兩個單引號中
curl -X POST -H "Content-Type: application/vnd.schemaregistry.v1+json" \ --data '{"schema": "{\"type\": \"record\", \"name\": \"User\", \"fields\": [{\"name\": \"id\", \"type\": \"int\"}, {\"name\": \"name\", \"type\": \"string\"}, {\"name\": \"age\", \"type\": \"int\"}]}"}' \ http://192.168.42.89:8081/subjects/dev3-yangyunhe-topic001-value/versions
- 註冊成功會返回這個 schema 的 ID
{"id":102}
(3) 在 maven 工程中引入 Confluent Schema Registry 相關的 jar 包
這些 jar 包在 maven 倉庫中下載不到,需要自己手動添加到集羣中,confluent-4.1.1 解壓後,其 share/java/目錄下有 confluent 各個組件的 jar 包:
我們需要 confluent-common 目錄下的common-config-4.1.1.jar
、common-utils-4.1.1.jar
和全部以jackson
開頭的 jar 包以及 kafka-serde-tools 目錄下的kafka-schema-registry-client-4.1.1.jar
和kafka-avro-serializer-4.1.1.jar
,關於如何添加本地的 jar 包到 java 工程中,本文不再贅述。
(4) Kafka Producer 發送數據
package com.bonc.rdpe.kafka110.producer; import java.util.Properties; import java.util.Random; import org.apache.avro.Schema; import org.apache.avro.generic.GenericData; import org.apache.avro.generic.GenericRecord; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.ProducerRecord; /** * @Title ConfluentProducer.java * @Description 使用Confluent實現的Schema Registry服務來發送Avro序列化後的對象 * @Author YangYunhe * @Date 2018-06-25 10:49:19 */ public class ConfluentProducer { public static final String USER_SCHEMA = "{\"type\": \"record\", \"name\": \"User\", " + "\"fields\": [{\"name\": \"id\", \"type\": \"int\"}, " + "{\"name\": \"name\", \"type\": \"string\"}, {\"name\": \"age\", \"type\": \"int\"}]}"; public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "192.168.42.89:9092,192.168.42.89:9093,192.168.42.89:9094"); props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); // 使用Confluent實現的KafkaAvroSerializer props.put("value.serializer", "io.confluent.kafka.serializers.KafkaAvroSerializer"); // 添加schema服務的地址,用於獲取schema props.put("schema.registry.url", "http://192.168.42.89:8081"); Producer<String, GenericRecord> producer = new KafkaProducer<>(props); Schema.Parser parser = new Schema.Parser(); Schema schema = parser.parse(USER_SCHEMA); Random rand = new Random(); int id = 0; while(id < 100) { id++; String name = "name" + id; int age = rand.nextInt(40) + 1; GenericRecord user = new GenericData.Record(schema); user.put("id", id); user.put("name", name); user.put("age", age); ProducerRecord<String, GenericRecord> record = new ProducerRecord<>("dev3-yangyunhe-topic001", user); producer.send(record); Thread.sleep(1000); } producer.close(); } }
(5) Kafka Consumer 消費數據
package com.bonc.rdpe.kafka110.consumer; import java.util.Collections; import java.util.Properties; import org.apache.avro.generic.GenericRecord; import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.kafka.clients.consumer.ConsumerRecords; import org.apache.kafka.clients.consumer.KafkaConsumer; /** * @Title ConfluentConsumer.java * @Description 使用Confluent實現的Schema Registry服務來消費Avro序列化後的對象 * @Author YangYunhe * @Date 2018-06-25 11:42:21 */ public class ConfluentConsumer { public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "192.168.42.89:9092,192.168.42.89:9093,192.168.42.89:9094"); props.put("group.id", "dev3-yangyunhe-group001"); props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); // 使用Confluent實現的KafkaAvroDeserializer props.put("value.deserializer", "io.confluent.kafka.serializers.KafkaAvroDeserializer"); // 添加schema服務的地址,用於獲取schema props.put("schema.registry.url", "http://192.168.42.89:8081"); KafkaConsumer<String, GenericRecord> consumer = new KafkaConsumer<>(props); consumer.subscribe(Collections.singletonList("dev3-yangyunhe-topic001")); try { while (true) { ConsumerRecords<String, GenericRecord> records = consumer.poll(1000); for (ConsumerRecord<String, GenericRecord> record : records) { GenericRecord user = record.value(); System.out.println("value = [user.id = " + user.get("id") + ", " + "user.name = " + user.get("name") + ", " + "user.age = " + user.get("age") + "], " + "partition = " + record.partition() + ", " + "offset = " + record.offset()); } } } finally { consumer.close(); } } }
(6) 測試結果
Kafka Consumer 的控制檯輸出內容如下:
value = [user.id = 1, user.name = name1, user.age = 20], partition = 1, offset = 696 value = [user.id = 2, user.name = name2, user.age = 27], partition = 0, offset = 696 value = [user.id = 3, user.name = name3, user.age = 35], partition = 2, offset = 695 value = [user.id = 4, user.name = name4, user.age = 7], partition = 1, offset = 697 value = [user.id = 5, user.name = name5, user.age = 34], partition = 0, offset = 697 ......