原创 【08】Flink 之 DataSet API(二):Transformation 操作

1、DataSet Transformation 部分詳解 Map:輸入一個元素,然後返回一個元素,中間可以做一些清洗轉換等操作 FlatMap:輸入一個元素,可以返回零個,一個或者多個元素 MapPartition:類似map

原创 【05】Flink 之 DataStream API(三):Partition 操作

1、Partition 操作常用API Random partitioning Rebalancing Rescaling Custom partitioning Broadcasting Random partitioni

原创 【04】Flink 之 DataStream API(二):Transformations 操作

1、DataStream API Transformations 操作 Transformations 常見API: map:輸入一個元素,然後返回一個元素,中間可以做一些清洗轉換等操作 flatmap:輸入一個元素,可以返回零

原创 Linux查看進程、端口占用相關命令

1、netstat 命令 1.1、查看端口進程 1.1.1 -nlp netstat -nlp | grep 端口號 eg: netstat -nlp | grep 3001 查詢結果: 1.1.1 -anp netstat

原创 【Python機器學習】之 Boosting算法

Boosting 1、Boosting 1.1、Boosting算法 ​ Boosting算法核心思想: 1.2、Boosting實例 ​ 使用Boosting進行年齡預測: 2、XGBoosting ​ XGBoo

原创 【Python機器學習】之 梯度下降法

梯度下降法 1、梯度下降法 1.1、梯度下降 ​ 梯度下降是一種非常通用的優化算法,能夠爲大範圍的問題尋找最優解。梯度下降的中心思想就是:迭代地調整參數從而使成本函數最小化。 特點: 梯度下降法不是一個機器學習算法 梯度

原创 【Python機器學習】之 SVM 支持向量機算法

SVM 支持向量機   支持向量機(SVM)是一個功能強大並且全面的機器學習模型,它能夠執行線性或非線性分類問題、迴歸問題,甚至是異常值檢測任務。 1、感知機 1.1、感知機模型   假設現在要判斷是否給某個客戶辦理信用卡,已有的

原创 【Python機器學習】之 K-Means聚類算法

K-Means聚類 常見的聚類方法有:K-Means聚類、層次聚類、密度聚類、譜聚類和高斯混合聚類等。 1、K-Means聚類 1.1、K-Means聚類過程 ​ K-Means 算法是一種無監督的聚類算法。K-Means核心思

原创 【Python機器學習】之 Linear 線性迴歸法

Linear 線性迴歸算法   迴歸分析是一種預測性建模技術,主要用來研究因變量(yiy_iyi​)和自變量(xix_ixi​)之間關係,通常被用於預測分析、時間序列等。   線性迴歸(Linear Regression)是利用線

原创 【Python機器學習】之 KNN算法

k 近鄰算法   k 近鄰(k-Nearset Neighbor,簡稱 kNN)學習是一種常用的監督學習方法,其工作機制非常簡單:給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的 k 個訓練樣本,然後基於這 k 個“鄰居”的

原创 ES 6.x 和 kibana 6.x 安裝配置

1、ElasticSearch 6.x 安裝 1.1、解壓 # 上傳並解壓 tar -zxvf elasticsearch-6.4.0-linux-x86_64.tar.gz 1.2、修改權限信息 避免其他用戶無法訪問,添加權限

原创 【20】Flink 實戰案例開發(二):數據報表

1、應用場景分析 數據清洗【實時ETL】 數據報表 1.1、數據報表 1.1.1、架構圖 1.1.2、需求分析 主要針對直播/短視頻平臺審覈指標的統計 統計不同大區每1 min內過審(上架)的數據量 統計不同大區每1 mi

原创 【19】Flink 實戰案例開發(一):數據清洗

1、應用場景分析 數據清洗【實時ETL】 數據報表 1.1、數據清洗【實時ETL】 1.1.1、需求分析 針對算法產生的日誌數據進行清洗拆分 算法產生的日誌數據是嵌套大JSON格式(json嵌套json),需要拆分打平 針

原创 【14】Flink 之 Window(窗口)

1、Flink Window 1.1、Window(窗口) 聚合事件(比如計數、求和)在流上的工作方式與批處理不同。 比如,對流中的所有元素進行計數是不可能的,因爲通常流是無限的(無界的)。所以,流上的聚合需要由 window

原创 【07】Flink 之 DataSet API(一):Data Source

1、DataSet API之Data Source 基於文件 readTextFile(path) 基於集合 fromCollection(Collection) 實際中第一種較長使用,兩種的操作方法同DataS