Kafka到Hdfs,大數據數據抽取,yyyy-MM-ddThh:mm:sssZ轉yyyy-MM-dd hh:mm:ss

原創

2020-06-16 16:09

部署亂七八糟環境感覺還是用docker的好,雖然我不會,如果是內網的話,再讓我選一次,我一定選docker,然而開發環境和部署環境各種不同,真的會搞死人.

關於kafka重複數據,拉取不到最新數據,可能是配置consumer參數問題,如果設置的max.pool

因爲max.poll.interval.ms默認值爲30000,設置的max.poll.records爲1000,在阻塞時間內業務尚未處理完成,kafka會認爲心跳失敗,offset未提交,重新消費.所以數據一是重複的,二無法消費到最新的消息

時間轉換函數,如果不是時間格式返回原值,大致匹配正則表達式:

"[1-2][0-9]{3}-[0-1][0-9]-[0-3][0-9]T[0-2][0-9]:[0-5][0-9]:[0-9]{2}.[0-9]{3}Z"

    private static String timeC(String UTC0) {
        SimpleDateFormat dff = new SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss.SSS", Locale.ENGLISH);//輸入的被轉化的時間格式
        SimpleDateFormat df1 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");//需要轉化成的時間格式
        Date date1 = null;
        try {
            date1 = dff.parse(UTC0);
            long utc8 = date1.getTime() + 8 * 60 * 60 * 1000;
            Date date = new Date(utc8);
            String UTC8 = df1.format(date);
            return UTC8;
        } catch (ParseException e) {
            e.printStackTrace();
            return UTC0;
        }
    }

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kafka-producer-perf-test-0.10.2.1-壓測腳本改造

最近網關和業務的日誌線上都是4萬/秒，然後需要用flink算一下每個業務的異常數，週期性輸出分析結果既然是4萬/秒，那麼我起碼得壓個10萬/秒才能安心上線，那麼問題來了，怎麼構造10萬/秒的壓力（單條消息1K） ---這裏選擇官方的Kaf

2023-07-07 21:22:35

1關於flink的時間字段-ProcessTime-重新debug-讀kafka->通知觀察方(含正確腳本)

之前爲了趕項目進度(人少，沒資源)，只研究了下針對processing time，因爲這個取的是當前時間，通過爭取時間快速支撐了一些業務的上線。而隨着業務的陸續接入，全部使用processing time已經開始有不妥之處，所以必須把這個

2023-07-07 21:22:31

聊聊 Kafka：Producer 源碼解析

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-17 17:58:58

聊聊 Kafka：編譯 Kafka 源碼並搭建源碼環境

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-16 12:43:53

替代 Kafka？Pinterest 推出高效可擴展雲原生系統 MemQ

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Pinterest Engineering

2021-12-15 17:03:56

聊聊 Kafka： Kafka 爲啥這麼快？

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、前言","att

老周聊架构

2021-12-14 13:33:55

東南亞“美團” Grab 的搜索索引優化之法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 11:18:54

Kafka消息生成，消費，存儲機制

Kafka是最初由Linkedin公司開發，是一個分佈式、分區的、多副本的、多訂閱者，基於zookeeper協調的分佈式日誌系統(也可以當做MQ系統)，常見可以用於web/nginx日誌、訪問日誌，消息服務等等，Linkedin於2010

2021-09-15 21:10:25

監控微服務

1、監控指標 1）qps，pv 2）響應時間。大多數情況下，可以用一段時間內所有調用的平均耗時來反映請求的響應時間。但它只代表了請求的平均快慢情況，有時候我們更關心慢請求的數量。P99 = 500ms，意思是 99% 的請求

2021-09-10 21:35:12

數據遷移同步平臺CloudCanal免費社區版正式發佈

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-08-06 15:13:50

深度解讀：Kafka放棄ZooKeeper，消息系統興起二次革命

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-04-16 10:33:50

簡單的Kafka：沒有ZooKeeper的Kafka

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-04-07 18:43:54

實時數據倉庫的發展、架構和趨勢

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-04-02 09:43:51

你可能用錯了kafka的重試機制

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-03-22 18:35:34

Uber大型實時數據智能平臺建設

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Uber工程博客

2021-03-22 18:35:34

24小時熱門文章

最新文章

最新評論文章