原创 Flink簡介以及與sparkStreaming和Storm比較

Flink簡介 Apache Flink 是一個開源的分佈式,高性能,高可用,準確的流處理框架。 主要由 Java 代碼實現。 支持實時流(stream)處理和批(batch)處理,批數據只是流數據的一個極限特例。 Flink原

原创 flink打包程序提交任務示例

工具 maven、idea、flink1.9-2.11scala 代碼 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apa

原创 時間序列——使用tsfresh進行分類任務

tsfresh簡介 tsfresh是開源的提取時序數據特徵的python包,能夠提取出超過4000種特徵,堪稱提取時序特徵的瑞士軍刀。 tsfresh官網 tsfresh項目github地址 下面是使用官方的案例數據進行的一個

原创 解決ubuntu下丟失win10引導項

問題描述: ubuntu突然進入系統特別慢,大概像這樣 不耐煩的我直接強行重啓了,重啓效果很好,windows引導項沒了,很nice,想想我的迅雷,我那一瞬間是有點失落的,所以我決定找回來,一番探索,發現一行命令就能解決: 進入

原创 Pandas數據重採樣

數據重採樣 時間數據由一個頻率轉換到另一個頻率 降採樣 升採樣 import pandas as pd import numpy as np #先生成一份時間序列數據 rng = pd.date_range('1/1/2019

原创 解決flink啓動後無法正常關閉

使用命令stop-cluster.sh關閉flink集羣的時候出現以下錯誤, No taskexecutor daemon to stop on host tanghc-X550JX. No standalonesession d

原创 [ERROR][org.logstash.Logstash ] java.lang.IllegalStateException: Logstas 報錯解決

報錯細節 [2020-06-03T13:52:19,226][FATAL][logstash.runner ] Logstash could not be started because there is alr

原创 ARIMA模型選擇與殘差

%load_ext autoreload %autoreload 2 %matplotlib inline %config InlineBackend.figure_format='retina' import pandas as

原创 錯誤解決java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStrea和Under-Replicated Blocks

bug1 CDH spark1.6升級spark2後spark-submit或spark-shell時出現錯誤 Exception in thread “main” java.lang.NoClassDefFoundError:

原创 Flink 批處理之DataSet(source、sink、Transformation)

1.批處理流程 獲取 Flink 批處理執行環境 構建 source 數據處理 構建 sink 2.wordcount入門案例 IDEA 建立maven工程 工程目錄如下 2.BatchWordCount package

原创 pandas時間序列之滑動窗口

%matplotlib inline import matplotlib.pylab import numpy as np import pandas as pd #生成示例數據 df=pd.Series(np.random.r

原创 centos&離線安裝Cloudera Manager6.3.1 和CDH6.3.1

1.環境準備(所有節點,root用戶環境下) 1.1.設置唯一主機名 sudo hostnamectl set-hostname foo-1.example.com 1.2.設置/etc/hosts 舉例: 1.1.1.1 f

原创 "第四代"大數據計算引擎Flink簡介

目錄 1.Flink的引入 2.什麼是Flink 3.Flink流處理特性 4.Flink基石 5.批處理與流處理 1.什麼是Flink Flink 起源於 Stratosphere 項目,Stratosphere 是在 2010

原创 時間序列-ARIMA模型

數據平穩性與差分法 平穩性: 平穩性就是要求經由樣本時間序列所得到的擬合曲線 在未來的一段期間內仍能順着現有的形態“慣性”地延續下 平穩性要求序列的均值和方差不發生明顯變化 嚴平穩與弱平穩: 嚴平穩:嚴平穩表示的分佈不隨時間

原创 Flink之CEP(複雜時間處理)

Flink 複雜時間處理 CEP概述 複雜事件處理(Complex Event Processing,CEP) FLink CEP是在Flink中實現的複雜事件處理(CEP)庫 CEP允許在無休止的事件流中檢測事件模式,讓我們有