spark gbdt 自定義閾值取出模型概率，並轉換label

在大家使用spark 的時候，會發現，ML庫下的模型生成的概率是一個Vector，那麼如何將這個Vector的概率爲1的那一列取出呢？並且自定義閾值，按照這個閾值切分得到label的0，1類呢？
這時候udf函數就派上了很好的用場，廢話不多說，直接上代碼

取出Vector 的第n列，生成新的dataframe

切分Vector得到每一列的值，形如調用下面的代碼生成features,對feature進行切割

val vectorAssembler = new VectorAssembler()
  .setInputCols(int_col++dou_col).setOutputCol("features")

udf函數代碼如下：

val code_par:(org.apache.spark.ml.linalg.Vector=>Double)=(arg:org.apache.spark.ml.linalg.Vector)=>{
      val temp =arg(1)
      temp
    }
    val parsecol=udf(code_par)
    val df_temp =df.withColumn(add_col,parsecol(df(“features”)))
    df_temp

當訓練完成後，transform 預測數據後，也會生成一個形如上面這個features的parobability列，調用該udf函數，即可完成對label=1的prob的取出；

模型概率設置閾值，生成label

當得到label=1的prob時，使用udf函數，自定義設置閾值，多模型進行劃分，並得到相應的精確率，recall；閾值劃分的udf函數入下：

-- 概率閾值的切分
val thres = threshold
//閾值判斷預測輸出
val code :(Double => Int) = (arg: Double) => {if (arg < thres ) 0 else 1}
val colfun = udf(code)
val df_pre = finalDf.withColumn(predict_lable_col, col=colfun(finalDf(add_col)))

edited by :Eshter
date:20191012
版權歸eshter 所有,轉載請註明出處

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark gbdt 自定義閾值取出模型概率，並轉換label

取出Vector 的第n列，生成新的dataframe

模型概率設置閾值，生成label

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

jupyter誤刪文件

數據傾斜原因及其解決方案

python積銖累寸

上海臨港人工智能開發者大會(百度+英偉達+亞馬遜的官方workshop和hackathon)

pandas基礎問題解決與整理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

spark gbdt 自定義閾值 取出模型概率，並轉換label

取出Vector 的第n列，生成新的dataframe

模型概率設置閾值，生成label

spark gbdt 自定義閾值取出模型概率，並轉換label