Spark2.2.0 MLlib RDD 到 LabelPoint的转换

原創

2021-05-28 21:41

首先构造数据

import scala.util.Random.{setSeed, nextDouble}
setSeed(1)

//创建对象
case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double)

//生成10条记录
val rows = sc.parallelize(
    (1 to 10).map(_ => Record(
        nextDouble, nextDouble, nextDouble, nextDouble, nextDouble
   ))
)

//生成临时表
val df = sqlContext.createDataFrame(rows)
df.registerTempTable("df")

//查询，ROUND(foo, 2)精确到小数点后2位
sqlContext.sql("""
  SELECT ROUND(foo, 2) foo,
         ROUND(target, 2) target,
         ROUND(x1, 2) x1,
         ROUND(x2, 2) x2,
         ROUND(x2, 2) x3 
  FROM df""").show

得到的数据如下

+----+------+----+----+----+
| foo|target|  x1|  x2|  x3|
+----+------+----+----+----+
|0.73|  0.41|0.21|0.33|0.33|
|0.01|  0.96|0.94|0.95|0.95|

假设我们想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3))

import org.apache.spark.mllib.linalg.{Vector, Vectors}  
import org.apache.spark.mllib.regression.LabeledPoint 

// Map feature names to indices
// 获取这两个字段的对应数据框的位置
val featInd = List("x1", "x3").map(df.columns.indexOf(_))

// Or if you want to exclude columns
// 先删除这ignored中的这个3个字段,返回剩下的数据框的位置。
val ignored = List("foo", "target", "x2")
val featInd = df.columns.diff(ignored).map(df.columns.indexOf(_))

// Get index of target
val targetInd = df.columns.indexOf("target") 

df.rdd.map(r => LabeledPoint(
   r.getDouble(targetInd), // Get target value
   // Map feature indices to values
   Vectors.dense(featInd.map(r.getDouble(_)).toArray) 
))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark2.2.0 MLlib RDD 到 LabelPoint的转换

首先构造数据

得到的数据如下

假设我们想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3))

如何使用 JS 判断用户是否处于活跃状态

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

Linux中的tty和pts

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

系統國際化之多語言解決方案| 京東物流技術團隊

CaffeineCache Api介紹以及與Guava Cache性能對比| 京東物流技術團隊

Vite 的預構建原理與實踐| 京東物流技術團隊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結