台部落人不瘋狂枉一生

有狀態的計算是流式計算框架的一個重要功能，很多複雜的計算場景都需要記錄一下相關的狀態。Flink State一種爲了滿足算子計算時需要歷史數據需求的，使用 checkpoint 機制進行容錯，存儲在 state backend 的數

2024-05-17 14:23:00

Flink的代碼編寫流程爲env->source->transform->sink，基本所有的代碼都是大致按照圖1的流程進行代碼編寫，當然中間也會有一些封裝之類的。 Flink代碼寫好後，它的任務調度執行圖按照生成順序分爲:邏輯流圖(

2024-05-16 14:23:03

kafka作爲商業級中間件，它在設計時優先考慮的可靠性、可用性，同時兼顧一致性，這是所有分佈式都會遇到的cap理論，kafka也不例外；可靠性通過副本機制解決，可用性通過leader和follower機制來解決。 kafka的可靠性

2024-05-15 14:22:59

Kafka之所以有那麼高的吞吐量，很大程度取決於它的存儲機制，一個主題可以有多個partition，每個partition有一個leader和多個副本，讀寫主要通過leader，副本的主要功能還是爲了保證數據的安全性和保證可靠性，當某個pa

2024-05-09 14:22:54

1.背景最近在處理一個數據量級在1億左右的數據，沒辦法mysql不好處理，只能把數據放到大數據集羣進行處理，處理好後再把這億級數據導入本地Mysql。 2.實踐（1）把需要處理的數據手動傳到集羣，上傳的數據只有一萬條左右，經過

2024-02-01 14:25:07

1.背景最近公司看板要搞月切看板，沒法只有把每個月的最後一份數據存儲下來，由於看板使用的是存儲引擎是mysql，所以並不想每次都推送所有月份數據到mysql，尤其是每個月數據量較大的時候，只好使用增量的方式進行數據推送。採

2024-01-23 14:28:31

1.背景底層引擎採用的是Tez，爲了快速定位自己的腳本是哪一段性能較差，首先需要在腳本里面設置腳本名稱，命令如下： set tez.job.name=dws_contract_detail_info_s_d; 這是我的一個

2023-12-22 14:40:21

　　區塊鏈是一種分佈式的、不可篡改的記錄數據的技術。它是由一系列數據塊（Blocks）組成的鏈式結構，每個數據塊包含了一定數量的交易信息和與之相關的元數據。每個數據塊都通過密碼學哈希函數與前一個數據塊連接起來，形成了一個不斷增長的鏈式結構。

2023-11-21 14:26:36

1.背景最近在使用instr進行字符截取時出現了字符截斷的情況，案例是需要獲取出"紅河哈尼族矯族自治州(xxxx（紅河)有限公司)"裏面的"xxxx（紅河)有限公司"內容，結果獲取到的內容是"xxxx（紅河"，該語句針對只

2023-11-05 14:27:52

1.背景最近看同事在搞自動化測試，便想着自己在本地搭建一個自動化點擊頁面環境。主要是Selenium操作谷歌遊覽器進行訪問百度，然後搜索關鍵詞，獲取搜索的內容。 2.環境準備（1）查看本地谷歌遊覽器版本號，點擊遊覽器右上

2023-10-12 14:23:44

上一篇介紹了邏輯迴歸算法，發現分類效果不好，通過這次的svm發現是因爲訓練數據不行，於是網上找了部分訓練數據，發現實際上分類效果還可以。訓練數據，第一個值是標籤，下面的數據是某種花的相關特徵。 1|5.1,3.5,1.4,0.2

2023-09-27 14:23:18

本地小數據量測試了一下Spark的LogisticRegressionWithSGD算法，效果不盡如人意。數據樣例如下，豎槓前的0,1代表兩種類型，後面逗號隔開的是兩個特徵，兩個特徵只要有一個大於等於0.6就會被分爲1這一類，否則

2023-09-25 14:25:40

1.背景最近整理以前的文件，發了一篇有意思的關於極驗驗證碼破解思路的文章。現在回過頭來思考感覺挺有意思的，分享給大家。百度百科對極驗的定義如下：極驗驗證是一種在計算機領域用於區分自然人和機器人的，通過簡單集成的

2023-09-11 14:22:52

最近看了以前寫的Sqoop腳本，就順手整理一下數據導入導出的相關參數使用方法及解釋。參數解釋 --connect <jdbc-uri> 關係數據庫連接地址，比如mysql的 jdbc:mysql://xx.x.35.x

2023-09-01 14:29:45

　　記錄一個導數的小坑，數倉裏面的數據需要導出到mysql，然後報表展示，並且需要把一段文字裏面的換行功能體現出來；數倉裏面的原始數據採用的是$符號進行分割每一行數據，直接把$符號替換爲\n然後導出到mysql，發現沒有生效，反而在頁面上把

2023-08-24 14:25:37