原创 關於flink的時間處理不正確的現象復現&原因分析

跟朋友聊天,說輸出的時間不對,之前測試沒關注到這個,然後就在processing模式下看了下,發現時間確實不正確 然後就debug,看問題在哪,最終分析出了原因,記錄如下: 具體我在朋友的https://github.com/apache/

原创 2關於flink的時間字段-ProcessTime-重新debug-通知觀察方接手進行處理

現在,觀察方如何得知有消息進來?斷點在 stop in org.apache.flink.streaming.runtime.tasks.OneInputStreamTask.run stop at org.apache.flink.s

原创 1關於flink的時間字段-ProcessTime-重新debug-讀kafka->通知觀察方

之前爲了趕項目進度(人少,沒資源),只研究了下針對processing time,因爲這個取的是當前時間,通過爭取時間快速支撐了一些業務的上線。 而隨着業務的陸續接入,全部使用processing time已經開始有不妥之處,所以必須把這個

原创 Kafka-producer-perf-test-0.10.2.1-壓測腳本改造 原

最近網關和業務的日誌線上都是4萬/秒,然後需要用flink算一下每個業務的異常數,週期性輸出分析結果 既然是4萬/秒,那麼我起碼得壓個10萬/秒才能安心上線,那麼問題來了,怎麼構造10萬/秒的壓力(單條消息1K) ---這裏選擇官方的Kaf

原创 Flink-1.5.0-源碼分析系列2:buildProgram 原

下面我們來看看buildProgram是怎麼實現的 stop in org.apache.flink.client.cli.CliFrontend.buildProgram 裏面有1個細節,就是如果未指定entrypointClassNam

原创 flink-v0.4-rc1-源碼分析3:啓動Task Manager 腳本的分析 原

下面,聊一下啓動task manager的腳本過程 /root/jdk1.8.0_181/bin/java -XX:+UseParNewGC -XX:NewRatio=8 -XX:PretenureSizeThreshold=64m -Xm

原创 如何構建一個flink sql平臺 原 薦

我們都知道,離線計算有Hive,使用過的知道,需要先定義一個schema,比如針對HDFS這種存儲對標mysql定義一個schema,schema的本質是什麼?主要描述下面這些信息 1)當前存儲的物理位置的描述 2)數據格式的組成形式 然後

原创 關於flink的日誌文件設置 原

1)yarn的啓動腳本 exec /bin/bash -c "$JAVA_HOME/bin/java -Xms580m -Xmx580m -XX:MaxDirectMemorySize=320m -Daaa=1 -XX:NativeMem

原创 關於flink消費kafka的序列化時-如何拿到消息的meta信息 原 薦

首先,我們故意製造一個異常 然後,發送一個JSON數據,並且缺失了一些字段,看看報什麼錯! 順利抓到調用棧 [2018-11-23 13:24:32,877] INFO Source: MyKafka010JsonTableSource

原创 關於outputFormat中是否要關聯schema的探討 原

開始,input/output都定義了schema,這樣肯定沒問題,可以跑通,然後思考到這個問題 在整個框架中,是這裏觸發了configure def writeToSink[T](sink: TableSink[T], conf: Q

原创 日本動漫進度 原

標題 當前進度 下一個進度 地址     灌籃高手 11集完畢 12集 http://www.iqiyi.com/a_19rrhb244t.html     銀魂           鋼之鍊金術           火

原创 參考官方mysql自定義一個mysql sink connector 原

寫4個類,比如我的是下面4個類 備註:因爲我司用的是內部的zebra框架,所以代碼自行替換連接池爲druid等. 參數也請自行替換 1)MyJDBCAppendTableSink.java /* * Licensed to the Ap

原创 YARN-2.7.3-源碼分析系列5:關於RM的HA的一點小知識點 原

用到的參數有 <!--高可用--> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <property

原创 2.7.3-YARN-獲取debug命令:resourceManager+nodeManager 原

1 源碼和二進制下載 http://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/   源碼 http://archive.apache.org/dist/hadoop/core/had

原创 2.2.0-ContainersMonitorImpl的報錯解決 原

<property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> 提交任務後,yarn報錯,我們看一下錯誤內容 2