原创 Github創建子目錄

一.點擊創建目錄按鈕 初始狀態: 二.填寫多層目錄【使用/分層】 填寫備註: 效果: 這樣多層目錄就創建好了,不能先創建src,再進入src目錄下創建下層目錄【沒有創建目錄按鈕】,且創建時必須輸入兩層,單層被認爲是文件!

原创 Spark2.x常見異常【InvalidPathException】

一.異常詳細信息 java.nio.file.InvalidPathException: Malformed input or input contains unmappable characters:./Spark2機器學習.j

原创 Git快速安裝

一.下載 前往Git官網下載最新安裝包:Git安裝包下載 如下: 二.安裝 1.設置安裝路徑 2.安裝相關組件 3.設置開始菜單 4.設置默認編輯工具 5.設置使用Git Bash 下面的步驟默認安裝即可:

原创 Flink流計算狀態與容錯

一.概述 有狀態的函數和運算符在處理單個元素/事件的過程中存儲數據,從而使狀態成爲任何類型的更精細操作的關鍵構建塊。 包括: 當應用程序搜索某些事件模式時,狀態將存儲到目前爲止遇到的事件序列。 在每分鐘/小時/天彙總事件時,狀態

原创 Flink流連接器之Kafka

一.簡介 Flink提供了特殊的Kafka連接器,用於在Kafka主題之間讀寫數據。Flink Kafka Consumer與Flink的檢查點機制集成在一起,以提供一次精確的處理語義。爲了實現這一目標,Flink不僅依賴於Kaf

原创 Spark ML基本算法【Correlation相關性】

一.簡介 計算兩個系列數據之間的相關性是“統計”中的常見操作。spark.ml 提供了很多系列中的靈活性,計算兩兩相關性。目前支持的相關方法是Pearson和Spearman的相關。 Correlation 使用指定的方法爲向量的

原创 Flink整合Kafka報objenesis

一.場景 因Scala函數式和鏈式編程使用使得代碼簡介性相較Java有質的提升,因此,在Flink開發時還是使用Scala進行編程。但是在加載Kafka的數據時報objenesis異常,但是代碼中沒有使用POJO類。 二.異常信息

原创 Kafka啓動異常之InconsistentClusterIdException

一.場景 kafka集羣一般都是部署在zookeeper集羣之上的,當Kafka出現異常時,強行關閉kafka集羣或zookeeper集羣時,重新啓動時經常會出現異常InconsistentClusterIdException。

原创 Flink整合Kafka實現WordCount

一.簡介 Flink的基本信息和API信息以及Kafka的基本信息在此不再贅述,需要了解的參考博客: Flink:Flink流處理API編程指南 Kafka:Kafka基本信息 二.代碼實戰 package cn.kafka

原创 Flink之Java lambda表達式

一.簡介 Java 8引入了一些新的語言功能,旨在更快,更清晰地編碼。它具有最重要的功能,即所謂的“ Lambda表達式”,爲函數式編程打開了大門。Lambda表達式允許以直接方式實現和傳遞函數,而無需聲明其他(匿名)類。 注意:

原创 Flink基本API及核心概念詳解

一.概述 Flink程序是常規程序,可對分佈式集合進行轉換(例如,過濾,映射,更新狀態,聯接,分組,定義窗口,聚合)。集合最初是從源創建的(例如,通過讀取文件,kafka主題或本地內存中的集合)。結果通過接收器返回,接收器可以將數

原创 Kafka單機及僞集羣模式部署及基本操作

一.下載,解壓 二.啓動服務器【先啓動zookeeper】 Kafka使用ZooKeeper,因此如果還沒有,請先啓動ZooKeeper服務器。可以使用kafka的腳本隨時來獲取快速且高效的單節點ZooKeeper實例。 啓動z

原创 Vue使用腳手架創建新項目

1.指向項目目錄 2.根據模版創建新項目 在當前目錄下輸入“vue init webpack-simple 項目名稱(使用英文)”。 創建成功: 3.項目結構介紹 介紹如下: 4.安裝工程依賴模塊 定位到myTest的工

原创 Kafka常用用例分析

一.消息傳遞 Kafka可以很好地替代傳統郵件代理。消息代理的使用有多種原因(將處理與數據生產者分離,緩衝未處理的消息等)。與大多數郵件系統相比,Kafka具有更好的吞吐量,內置的分區,複製和容錯能力,這使其成爲大規模郵件處理應用

原创 Spark結構化流編程【Dataset、DataFrame】

一.DataFrame和DataSet的API 從Spark 2.0開始,DataFrame和Dataset可以表示靜態的有界數據以及流式無界數據。與靜態數據集/數據框類似,可以使用公共入口點SparkSession (Scala