原创 Flink的State

    有狀態的計算是流式計算框架的一個重要功能,很多複雜的計算場景都需要記錄一下相關的狀態。Flink State一種爲了滿足算子計算時需要歷史數據需求的,使用 checkpoint 機制進行容錯,存儲在 state backend 的數

原创 Flink執行圖

Flink的代碼編寫流程爲env->source->transform->sink,基本所有的代碼都是大致按照圖1的流程進行代碼編寫,當然中間也會有一些封裝之類的。   Flink代碼寫好後,它的任務調度執行圖按照生成順序分爲:邏輯流圖(

原创 kafka數據一致性

kafka作爲商業級中間件,它在設計時優先考慮的可靠性、可用性,同時兼顧一致性,這是所有分佈式都會遇到的cap理論,kafka也不例外;可靠性通過副本機制解決,可用性通過leader和follower機制來解決。     kafka的可靠性

原创 Kafka存儲機制

Kafka之所以有那麼高的吞吐量,很大程度取決於它的存儲機制,一個主題可以有多個partition,每個partition有一個leader和多個副本,讀寫主要通過leader,副本的主要功能還是爲了保證數據的安全性和保證可靠性,當某個pa

原创 Hive數據線下導入Mysql

1.背景      最近在處理一個數據量級在1億左右的數據,沒辦法mysql不好處理,只能把數據放到大數據集羣進行處理,處理好後再把這億級數據導入本地Mysql。 2.實踐 (1)把需要處理的數據手動傳到集羣,上傳的數據只有一萬條左右,經過

原创 Mysql分區表踩坑

1.背景         最近公司看板要搞月切看板,沒法只有把每個月的最後一份數據存儲下來,由於看板使用的是存儲引擎是mysql,所以並不想每次都推送所有月份數據到mysql,尤其是每個月數據量較大的時候,只好使用增量的方式進行數據推送。採

原创 HiveSQL腳本耗時長問題排查

1.背景     底層引擎採用的是Tez,爲了快速定位自己的腳本是哪一段性能較差,首先需要在腳本里面設置腳本名稱,命令如下: set tez.job.name=dws_contract_detail_info_s_d;     這是我的一個

原创 單機區塊鏈理解

  區塊鏈是一種分佈式的、不可篡改的記錄數據的技術。它是由一系列數據塊(Blocks)組成的鏈式結構,每個數據塊包含了一定數量的交易信息和與之相關的元數據。每個數據塊都通過密碼學哈希函數與前一個數據塊連接起來,形成了一個不斷增長的鏈式結構。

原创 Hivesql字符截取函數錯用

1.背景         最近在使用instr進行字符截取時出現了字符截斷的情況,案例是需要獲取出"紅河哈尼族矯族自治州(xxxx(紅河)有限公司)"裏面的"xxxx(紅河)有限公司"內容,結果獲取到的內容是"xxxx(紅河",該語句針對只

原创 Python自動化測試工具Selenium使用踩坑

1.背景         最近看同事在搞自動化測試,便想着自己在本地搭建一個自動化點擊頁面環境。主要是Selenium操作谷歌遊覽器進行訪問百度,然後搜索關鍵詞,獲取搜索的內容。 2.環境準備 (1)查看本地谷歌遊覽器版本號,點擊遊覽器右上

原创 本地測試Spark的svm算法

上一篇介紹了邏輯迴歸算法,發現分類效果不好,通過這次的svm發現是因爲訓練數據不行,於是網上找了部分訓練數據,發現實際上分類效果還可以。     訓練數據,第一個值是標籤,下面的數據是某種花的相關特徵。 1|5.1,3.5,1.4,0.2

原创 本地測試Spark的邏輯迴歸算法

本地小數據量測試了一下Spark的LogisticRegressionWithSGD算法,效果不盡如人意。     數據樣例如下,豎槓前的0,1代表兩種類型,後面逗號隔開的是兩個特徵,兩個特徵只要有一個大於等於0.6就會被分爲1這一類,否則

原创 極驗驗證碼破解思路

1.背景         最近整理以前的文件,發了一篇有意思的關於極驗驗證碼破解思路的文章。現在回過頭來思考感覺挺有意思的,分享給大家。     百度百科對極驗的定義如下: 極驗驗證是一種在計算機領域用於區分自然人和機器人的,通過簡單集成的

原创 Sqoop參數使用大全

    最近看了以前寫的Sqoop腳本,就順手整理一下數據導入導出的相關參數使用方法及解釋。 參數 解釋 --connect <jdbc-uri> 關係數據庫連接地址,比如mysql的 jdbc:mysql://xx.x.35.x

原创 數倉數據導出mysql保留換行符踩坑

  記錄一個導數的小坑,數倉裏面的數據需要導出到mysql,然後報表展示,並且需要把一段文字裏面的換行功能體現出來;數倉裏面的原始數據採用的是$符號進行分割每一行數據,直接把$符號替換爲\n然後導出到mysql,發現沒有生效,反而在頁面上把