spark gbdt 自定义阈值取出模型概率，并转换label

原創

Daisy和她的单程车票

2019-10-25 20:48

在大家使用spark 的时候，会发现，ML库下的模型生成的概率是一个Vector，那么如何将这个Vector的概率为1的那一列取出呢？并且自定义阈值，按照这个阈值切分得到label的0，1类呢？
这时候udf函数就派上了很好的用场，废话不多说，直接上代码

取出Vector 的第n列，生成新的dataframe

切分Vector得到每一列的值，形如调用下面的代码生成features,对feature进行切割

val vectorAssembler = new VectorAssembler()
  .setInputCols(int_col++dou_col).setOutputCol("features")

udf函数代码如下：

val code_par:(org.apache.spark.ml.linalg.Vector=>Double)=(arg:org.apache.spark.ml.linalg.Vector)=>{
      val temp =arg(1)
      temp
    }
    val parsecol=udf(code_par)
    val df_temp =df.withColumn(add_col,parsecol(df(“features”)))
    df_temp

当训练完成后，transform 预测数据后，也会生成一个形如上面这个features的parobability列，调用该udf函数，即可完成对label=1的prob的取出；

模型概率设置阈值，生成label

当得到label=1的prob时，使用udf函数，自定义设置阈值，多模型进行划分，并得到相应的精确率，recall；阈值划分的udf函数入下：

-- 概率阈值的切分
val thres = threshold
//阈值判断预测输出
val code :(Double => Int) = (arg: Double) => {if (arg < thres ) 0 else 1}
val colfun = udf(code)
val df_pre = finalDf.withColumn(predict_lable_col, col=colfun(finalDf(add_col)))

edited by :Eshter
date:20191012
版权归eshter 所有,转载请注明出处

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「机器学习_8」Bag-of-Words

Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子） 3. 侷限性 1.文字問題文本建模的一個問題是它很雜亂，機器學習算法之類的技術更喜歡定義明確的

2020-07-08 11:01:54

回归损失函数：L1 Loss, L2 Loss, Smooth L1 Loss

講解的很清楚： https://www.cnblogs.com/wangguchangqing/p/12021638.html

2020-07-08 10:39:04

感知机中的关键问题：点到平面的距离，和梯度更新的符号

感知機的原理、以及學習方法，還是比較簡單的，參考： https://www.pkudodo.com/2018/11/18/1-4/ 但其中有2點關鍵，不是特別好理解： 1、關於點到平面的距離：參考：https://www.jian

2020-07-08 10:27:04

在spark，MapReduce 或 Flink 程序里面制定环境变量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

变身漫画道具玩了没？这样的 AI 人像特效机器学习服务帮你实现

近期，抖音上一款 “變身漫畫” 的特效刷爆“我的關注”，二次元漫畫樣式的畫風更是讓大家欲罷不能。從明星到路人，從大朋友到小朋友紛紛參與其中，抖音 App 中“變身漫畫”話題頁顯示約有 1851 萬餘人使用該道具。如今，此類視頻 / 圖片

2020-07-14 12:03:51

深度学习_目标检测_FPN论文详解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度学习_目标检测_“YOLOv5”详解（持续更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

分类问题中的决策面画法 (直观理解plt.contour的用法)

摘要通過分類問題中決策面的繪製過程直觀理解matplotlib中contour的用法，主要包括對 np.meshgrid 和plt.contour的直觀理解。前言分類問題中，我們習慣用2維的dmeo做例子，驗證算法的有效性。

张王李刘赵孙杨

2020-07-08 11:10:55

KNN算法第二章 Pandas & sklearn 机器学习实战 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

[R]聚类算法:k-means模组

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

python--内置函数

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

Spark系列：Spark学习笔记

Spark 閱讀官方文檔 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overv

2020-07-08 12:17:40

Spark 线性回归模型异常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179)

2020-07-08 12:17:29

spark日常报错问题-持续性更新

1：spark運行過程中出現與driver鏈接異常，並存在磁盤讀寫一場: java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/a

梦里却知是客

2020-07-08 11:59:58

pySpark DataFrame简介

1. 列名類型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType Decimal

2020-07-08 09:36:34

24小時熱門文章

最新文章

最新評論文章