台部落米斯特芳

高斯混合聚類的思想比較簡單，學過級數展開的都知道，一個符合條件（啥條件不記得了）的函數可以展開爲多個三角函數的線性組合。高斯混合聚類則是將數據的分佈展開爲K個正態分佈的組合（即多元正態分佈），然後求出這個多元正態分佈的均值向量與協方差矩陣

2021-08-15 01:31:57

以邏輯迴歸爲例 from pyspark.ml.linalg import Vectors from pyspark.ml.classification import LogisticRegression from pyspark.sql

2021-08-15 01:31:57

與線性迴歸模型相比較，主要有以下推廣（參考資料）： 1，隨機誤差項不一定服從正態分佈，可以服從二項、泊松、負二項、正態、伽馬、逆高斯等指數分佈族。 2，引入聯接函數。因變量和自變量通過聯接函數產生影響，聯接函數滿足單調可導。 from py

2021-08-15 01:31:57

沒什麼好說的，就是一種調用方式學習分類 from pyspark.ml import Pipeline from pyspark.ml.classification import GBTClassifier from pyspark.ml

2021-08-15 01:31:57

有時候需要對某列字符串建立索引，然後還原 from pyspark.ml.feature import IndexToString, StringIndexer from pyspark.sql import SparkSession s

2021-08-15 01:31:57

類似sklearn中的Inputer from pyspark.ml.feature import Imputer from pyspark.sql import SparkSession spark = SparkSession\

2021-08-15 01:31:57

沒什麼好說的，直接上代碼（註釋） from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.m

2021-08-04 20:43:12

本文將陸續彙總特徵處理常見方法 StandardScaler：標準化通過求z-score，求數據轉換爲正態分佈，常用於迴歸等基於正態分佈的算法 from sklearn.preprocessing import StandardScale

2021-08-04 20:43:12

FM算法主要分三類 SGD（隨機梯度下降） ALS（交替最小二乘法） MCMC（馬爾科夫鏈蒙特卡羅法） ALS已經介紹過，pyspark中求解使用的是AdamW（默認）和梯度下降法模型優點可用於高度稀疏數據場景；具有線性的計算複雜度

2021-08-04 20:43:12

常用於TD-IDF算法 from pyspark.sql import SparkSession from pyspark.ml.feature import CountVectorizer spark = SparkSession\

2021-08-04 20:43:02

from pyspark.sql import SparkSession from pyspark.ml.feature import Binarizer spark = SparkSession\ .builder\ .

2021-08-04 20:43:02

DCT：將時域的N維實數序列轉換成頻域的N維實數序列常用於信號處理和圖像處理，對信號和圖像（包括靜止圖像和運動圖像）進行有損壓縮。代碼很簡單： from pyspark.ml.feature import DCT from pyspar

2021-08-04 20:43:02

本文將陸續彙總機器學習中常見的評價指標分類以下包括精度、召回率、F1、ROC曲線、PR曲線 # 精度 from sklearn.metrics import accuracy_score # 精度，召回率，F1等 from sklear

2021-08-04 20:43:02

求導佈局：分子佈局（numerator layout）： m維列向量對標量求導結果爲m維列向量，標量對m*n維矩陣求導結果爲n*m維，m維列向量對n維列向量求導結果爲m*n維（雅克比矩陣）分母佈局（denominator layout）

2021-08-04 20:43:02

與數據相關的檢驗很多，本文力求逐漸彙總常用的檢驗（原理，代碼實現），因爲一個檢驗可能應用場景衆多，這裏只按檢驗羅列一、正態性檢驗檢驗一組數據是否服從正態分佈。正態分佈的好處（爲什麼我們總是需要假設正態分佈）中心極限定理：大數定理

2021-08-04 20:43:02