原创 Scala併發編程第二章練習題1

/** * 一、 * 實現一個名爲parallel的方法,該方法應該接收兩個執行計算操作的代碼塊a和b, * 並分別使用新建的線程執行他們,該方法返回一個含有該計算結果的元組,簽名爲:def parallel[A,B](a: =>

原创 Scala併發編程第二章練習題2

/** * 二、 * 實現一個名爲periodically的方法,該方法接收一個用於度量時間的參數duraction(單位爲毫秒),和一個執行計算操作的代碼塊b。 * 每經過一個由參數duraction設置的時間段,該方法都應該運

原创 spark-yarn查看集羣資源

    spark-submit --master yarn --deploy-mode cluster --executor-cores 4 --num-executors 3 --executor-memory 10g --class

原创 SparkStreaming中的轉化操作之--無狀態操作

沒有數據的時候不會報錯,它會一直等待,所以不需要進行判斷   每個DStream在內部是由許多RDD(也叫批次)組成,且無狀態轉化操作是分別應用到每個RDD上的。  無狀態轉化操作的例子map、filter、等等,操作都是每個批次中的數據

原创 spark的共享變量--累加器

累加器(共享變量):accumulator 注意: 首先要創建累加器的對象初始值是0 驅動器(driver program)程序可以調用累加器的value屬性 累加器是一個只寫變量 累加器最好還是不要在transform操作中使用:原因

原创 Flink中什麼是富函數

目錄在什麼場景中使用富函數?如何使用富函數?富函數中的方法open()/close()如何通過代碼實現一個富函數? 在什麼場景中使用富函數?   許多時候我們需要在函數處理第一條記錄之前就進行一些初始話工作或是取得函數運行時相關的

原创 Flink重啓策略/配置重啓策略

目錄重啓策略配置重啓策略 重啓策略 Flink何時纔會重啓? 一個擁有檢查點的應用如果出現問題,他會經過一些列步驟來進行重啓。 重啓過程中可能會出現的問題? 有些時候,應用可能會被相同的故障不斷“殺死” 舉例:   當我處理數

原创 Flink檢查點/保存點提交

目錄檢查點生成多個如何通過檢查點重新提交?保存點在什麼情況下觸發?不取消當前應用時創建保存點取消當前flink應用之前生成保存點從保存點處啓動程序 檢查點生成多個   Flink的檢查點默認是生成一個,想要生成多個可以在conf/

原创 Flink自定義數據源函數讀取以及如何讀取mysql

實現自定義的數據源函數讀取,Flink爲我們提供了兩個方法: SourceFunction通過實現RichSourceFunction來定義非並行的數據源連接器。 ParllelSourceFunction通過試下RichPar

原创 Flink_Kakfa詳解及描述

目錄Topic(主題與分區)Flink_Kafka連接器(flink-connector-kafka_2.12)Flink_Kafka提取事件時間生成水位線 Topic(主題與分區) Kafka將事件流,組織爲不同的主題(To

原创 Flink_Kakfa自定義輸出分區

在我們將消息寫入kafka的topic時,我們可以通過FlinkkafkaPartitioner指定寫入topic的哪個分區。 在不指定的情況下,默認的分區器會將每個數據任務映射到一個單獨的kafka分區中,即單個任務的所有記錄

原创 Flink讀寫文件

讀寫文件1 讀取文件-readFile2 寫入到文件-StreamingFileSink  2.1 在瞭解-StreamingFileSink之前你需要了解的知識點    2.1.1 結論  2.2 行編碼    2.2.1 行編

原创 Flink事件時間何時觸發窗口計算

目錄1.1 瀏覽本博客前你需要了解的知識點    flink內部是如何劃分窗口的?    觸發的條件?    何時第一次觸發?1.2 示例:觸發窗口計算    第一次觸發計算    何時第二次觸發計算    何時觸發多個窗口計算?

原创 Flink時間概念與水位線

注意:本篇博客中的所有解釋都是在滾動窗口的前提下 目錄1 時間概念類型1.1 事件生成時間(Event Time)1.2 事件接入時間(Ingestion Time)1.3 事件處理時間(Processing Time)1.4 指