原创 規避Debezium master purged GTID問題

MySQL開啓了gtid,debezium同步的時候報了錯: [root@ali-37 ~]# curl localhost:18083/connectors/debezium-mysql-source-3310/status {"n

原创 解決Spark Arrays.toString(Dataset.collect())報錯

以前用java.util.Arrays.toString(Dataset.collect())的時候是可以輸出的,不知爲何,今天編譯的時候報了錯誤: [INFO] -----------------------------------

原创 IDEA2018.1.6打開Scala文件decompiled.class file bytecode version50(java 6)解決

如下圖所示,scala的源文件顯示的反編譯級別不對,attach source文件也沒有用。 查看了idea的scala插件,發現插件不兼容,於是從idea官網下載了一個2018.1.6的插件,官網地址: https://plugin

原创 解決Spark standalone部署模式cores爲0的問題

在docker中運行spark程序,發現docker日誌打印如下內容: [Timer-0] o.a.spark.scheduler.TaskSchedulerImpl : Initial job has not accepte

原创 Kafka Connect 日誌配置

筆者之前啓動kafka connect進程後,發現過一段時間,日誌太大。 啓動kafka connect的命令如下: cd /home/tidb/confluent-4.1.1 ./bin/connect-distributed -

原创 IDEA一直很慢地Updating Indices的解決方法

參考 stackoverflow上的解決方案: https://stackoverflow.com/questions/15991561/intelli-j-idea-takes-forever-to-update-indices 對於

原创 Debezium for MySQL解析binlog報錯

運行在Kafka Connect 分佈式worker上的debezium for mysql connector報錯: {"name":"debezium-mysql-source-dev","connector":{"state":"R

原创 Apache Hive簡介

原文鏈接:https://cwiki.apache.org/confluence/display/HIVE        Apache Hive數據倉庫軟件設施,可以讀、寫和管理分佈式存儲上的大數據集(large datasets),並且

原创 Debezium for MySQL+Kafka+Confluent Schema Registry環境搭建

       由於公司業務需要,需要把MySQL中的binlog信息發送到kafka上,給相關應用去消費,對數據變化作出響應。        筆者用的軟件信息如下: 1.Kafka:kafka_2.11-2.0.0.tgz 2.Con

原创 Debezium的MySQL連接器的工作原理

原文參考官網:https://debezium.io/docs/connectors/mysql/#collapse4        本文將深入Debezium的MySQL連接器(一種kafka connector)的工作細節,包括跟蹤表

原创 設置Schema-Registry的配置,以支持Schema變化

筆者用confluent的schema-registry來實現Avro格式kafka消息的發送和接收。 但是當發送的消息中的字段(導致了schema變化了)增加了的時候報錯了: Caused by: org.apache.kafka.c

原创 Spring集成Kafka中的事務

       原文鏈接:https://docs.spring.io/spring-kafka/reference/htmlsingle/#transactions 事務Transactions        Kafka0.11.0.0版

原创 Spring Cloud 服務共享相同的配置

       微服務中配置中性的每個項目的配置文件都可以按照不同的部署環境而有不同的配置文件,但是有一些配置是所有服務共有的,比如每個服務都需要往kafka發送消息,那麼總不至於在每個服務的配置環境中都配置kafka的集羣信息吧。   

原创 修改Kafka topic的replication-factor

集羣信息 kafka集羣有三臺broker,id分別爲:0,1,2 查看topic的replication-factor信息: [root@ali-37 bin]# ./kafka-topics.sh --zookeeper localh

原创 記一次排查InputStream不可重複讀問題

背景        筆者在做一個項目,需要把用戶瀏覽頁面信息上報到後端做PV,UV統計展示。之前是在POST請求體中直接明文傳輸用戶瀏覽信息,現在希望用Base64編碼一下,這樣即使用戶打開瀏覽器控制檯的Network也看不出上傳了什麼。