原创 pyspark高斯混合聚類

高斯混合聚類的思想比較簡單,學過級數展開的都知道,一個符合條件(啥條件不記得了)的函數可以展開爲多個三角函數的線性組合。 高斯混合聚類則是將數據的分佈展開爲K個正態分佈的組合(即多元正態分佈),然後求出這個多元正態分佈的均值向量與協方差矩陣

原创 pyspark模型自定義參數

以邏輯迴歸爲例 from pyspark.ml.linalg import Vectors from pyspark.ml.classification import LogisticRegression from pyspark.sql

原创 pyspark廣義線性模型

與線性迴歸模型相比較,主要有以下推廣(參考資料): 1,隨機誤差項不一定服從正態分佈,可以服從二項、泊松、負二項、正態、伽馬、逆高斯等指數分佈族。 2,引入聯接函數。因變量和自變量通過聯接函數產生影響,聯接函數滿足單調可導。 from py

原创 pyspark提升樹(GBT)

沒什麼好說的,就是一種調用方式學習 分類 from pyspark.ml import Pipeline from pyspark.ml.classification import GBTClassifier from pyspark.ml

原创 pyspark字符串與索引相互變換

有時候需要對某列字符串建立索引,然後還原 from pyspark.ml.feature import IndexToString, StringIndexer from pyspark.sql import SparkSession s

原创 pyspark空值處理

類似sklearn中的Inputer from pyspark.ml.feature import Imputer from pyspark.sql import SparkSession spark = SparkSession\

原创 pyspark交叉驗證

沒什麼好說的,直接上代碼(註釋) from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.m

原创 特徵處理彙總

本文將陸續彙總特徵處理常見方法 StandardScaler:標準化 通過求z-score,求數據轉換爲正態分佈,常用於迴歸等基於正態分佈的算法 from sklearn.preprocessing import StandardScale

原创 pyspark分解機(Factorization Machines)

FM算法主要分三類 SGD(隨機梯度下降) ALS(交替最小二乘法) MCMC(馬爾科夫鏈蒙特卡羅法) ALS已經介紹過,pyspark中求解使用的是AdamW(默認)和梯度下降法 模型優點 可用於高度稀疏數據場景;具有線性的計算複雜度

原创 pyspark詞頻統計

常用於TD-IDF算法 from pyspark.sql import SparkSession from pyspark.ml.feature import CountVectorizer spark = SparkSession\

原创 pyspark二值化(0-1化)

from pyspark.sql import SparkSession from pyspark.ml.feature import Binarizer spark = SparkSession\ .builder\ .

原创 pyspark DCT(離散餘弦變換)

DCT:將時域的N維實數序列轉換成頻域的N維實數序列 常用於信號處理和圖像處理,對信號和圖像(包括靜止圖像和運動圖像)進行有損壓縮。 代碼很簡單: from pyspark.ml.feature import DCT from pyspar

原创 機器學習常用評價指標

本文將陸續彙總機器學習中常見的評價指標 分類 以下包括精度、召回率、F1、ROC曲線、PR曲線 # 精度 from sklearn.metrics import accuracy_score # 精度,召回率,F1等 from sklear

原创 機器學習中矩陣求導規則

求導佈局: 分子佈局(numerator layout): m維列向量對標量求導結果爲m維列向量,標量對m*n維矩陣求導結果爲n*m維,m維列向量對n維列向量求導結果爲m*n維(雅克比矩陣) 分母佈局(denominator layout)

原创 統計學之檢驗

與數據相關的檢驗很多,本文力求逐漸彙總常用的檢驗(原理,代碼實現),因爲一個檢驗可能應用場景衆多,這裏只按檢驗羅列 一、正態性檢驗 檢驗一組數據是否服從正態分佈。 正態分佈的好處(爲什麼我們總是需要假設正態分佈) 中心極限定理:大數定理