pyspark.ml.feature特徵工程常用方法（二）

原創

2020-02-23 21:47

本篇博文主要是對pyspark.ml.feature模塊的函數進行介紹，也可以直接看官網文檔。其中博文的數據皆來自官方文檔中例子。官方文檔地址： http://spark.apache.org/docs/latest/api/python/pyspark.ml.html

pyspark.ml.feature 函數概括：

__all__ = ['Binarizer', 'Bucketizer', 'CountVectorizer', 'CountVectorizerModel', 'DCT',

'ElementwiseProduct', 'HashingTF', 'IDF', 'IDFModel', 'IndexToString', 'MinMaxScaler',

'MinMaxScalerModel', 'NGram', 'Normalizer', 'OneHotEncoder', 'PCA', 'PCAModel',

'PolynomialExpansion', 'RegexTokenizer', 'RFormula', 'RFormulaModel', 'SQLTransformer',

'StandardScaler', 'StandardScalerModel', 'StopWordsRemover', 'StringIndexer',

'StringIndexerModel', 'Tokenizer', 'VectorAssembler', 'VectorIndexer', 'VectorSlicer',

'Word2Vec', 'Word2VecModel']

1、MinMaxScaler(min=0.0, max=1.0, inputCol=None, outputCol=None)

MinMaxScaler歸一化數據到特定的範圍，被稱爲最小最大正則或者縮放。

計算公式如下：

Rescaled(e_i) = (e_i - E_min) / (E_max - E_min) * (max - min) + min

For the case E_max == E_min, Rescaled(e_i) = 0.5 * (max + min)

其中：[min，max]爲欲歸一化的特定範圍，e_i待處理數據，E_max數據最大值，E_min數據最小值。

from pyspark.ml.feature import MinMaxScaler

>>> from pyspark.ml.linalg import Vectors
>>> df = spark.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
>>> mmScaler = MinMaxScaler(inputCol="a", outputCol="scaled")
>>> model = mmScaler.fit(df)
>>> model.originalMin
DenseVector([0.0])
>>> model.originalMax
DenseVector([2.0])
>>> model.transform(df).show()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pyspark.ml.feature特徵工程常用方法（二）

1、MinMaxScaler(min=0.0, max=1.0, inputCol=None, outputCol=None)

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

word2vec tf實戰

目標檢測指標性能評價(IOU,mAP等)

特徵選擇(過濾法、包裝法、嵌入法)

word2vec與詞嵌入

python數據類型及互相轉化

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結