原创 Spark報Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize

一.異常信息 Total size of serialized results of 12189 tasks is bigger than spark.driver.maxResultSize 1024M. Total size

原创 Spark ML基本算法【ChiSquareTest卡方檢驗】

一.簡介 假設檢驗是一種強大的統計工具,可用來確定結果是否具有統計學意義,以及該結果是否偶然發生。spark.ml當前支持Pearson的卡方測試獨立性。 ChiSquareTest針對標籤上的每個功能進行Pearson的獨立性測

原创 Flink流連接器之Kafka【二】【Kafka Offset設置、容錯、主題和分區動態發現】

一.Kafka offset 配置 Flink Kafka Consumer可以配置Kafka分區的起始位置。 代碼: //獲取數據源 kafka val consumer : FlinkKafkaConsumer09[Strin

原创 Spark ML常見異常【Vector】

一.常見分析 在Spark 機器學習中,Vector向量和Metricx矩陣是最常用的兩種數據類型。特別是Vector向量類型,在使用Vector向量類型時,默認是不會導入Spark定義的Vector類型的。默認使用scala.c

原创 Spark1.x升級Spark2.x常見異常Kafka篇【TopicMetadataRequest】

一.原因分析 當Spark從1.x升級到2.x時,如果使用SparkStreaming加載Kafka的數據,即使Kafka版本沒有變化【一般會有所升級】,對應的spark-streaming-kafka也必須升級到對應版本,訪問方

原创 Spark ML基本算法【總結器】

一.簡介 通過使用Summarizer提供矢量列【向量、矩陣】彙總統計Dataframe。可用的指標是按列的最大值,最小值,平均值,總和,方差,std和非零數,以及總數。 二.代碼實戰【以均值、方差爲例】 package spar

原创 使用Github搭建個人網站

一.創建新倉庫 二.指定倉庫信息 三.創建首頁 新建文件index.html 四.登錄 五.設置網站 點擊: 選擇主題: 保存: 六.注意事項 僅支持靜態網頁。 只能是html文件。

原创 Spark 機器學習庫【MLlib】編程指南

一.機器學習庫 MLlib是Spark的機器學習庫【ML】。其目標是使實用的機器學習算法變得可擴展且容易使用。在較高級別,它提供了以下工具: 機器學習算法:常見的機器學習算法,例如分類,迴歸,聚類和協同過濾。 特徵化:特徵提取,

原创 Git常用操作【管理Github、常用命令、管理遠程倉庫】

一.關聯Github 1.創建倉庫目錄 2.進入目錄,右鍵選擇Git Bash Here 3.關聯Github賬號和郵箱 二.Git常用操作 1.初始化 生成.git目錄: 2.查看git狀態 3.創建文件並查看 效

原创 Spark Streaming窗口函數

一.簡介 Spark Streaming還提供了窗口計算,可以在數據的滑動窗口上應用轉換。下圖說明了此滑動窗口。 如該圖所示,每當窗口滑動在源DStream,落入窗口內的源RDDS被組合及操作以產生RDDS的窗口DStream。

原创 Flink預定義時間戳提取器/水印發射器

一.簡介 Flink提供了抽象,允許程序員分配自己的時間戳併發出自己的水印。更具體地說,根據使用情況,可以通過實現AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWater

原创 Spark2.x之SQL/join關聯報CROSS JOIN錯誤

一.算子join 在Spark中,兩個dataframe關聯分爲使用算子join關聯和使用視圖SQL關聯兩種。在使用join算子關聯時,一般的關聯語句是這樣的: words_df.join(words_df, words_df("

原创 Github基本概念

一.倉庫【Repository】 倉庫,即你項目存放的位置,要想在Github上開源一個項目,就必須創建一個新的Repository,多個項目對應多個倉庫。 二.收藏【Star】 倉庫主頁star按鈕,可以根據需要收藏自己感興趣的

原创 Sparkstreaming常用算子詳解

一.基本算子 中文翻譯: 二.updateStateByKey updateStateByKey操作可以保持任意狀態,同時不斷用新信息更新它。要使用此功能,必須執行兩個步驟。 定義狀態-狀態可以是任意數據類型。 定義狀態更新

原创 Flink流連接器【數據源/接收器】

一.預定義的源和接收器 Flink內置了一些基本數據源和接收器,它們始終可用。該預定義的數據源包括文件,目錄和Socket,並可以加載集合和迭代器的數據。該預定義的數據接收器支持寫入文件,輸出信息和異常。 二.捆綁式連接器 連接器