Spark-线性回归示例01

房屋普查,预测房价,最后预测结果不太准确,后续会调整,可能的原因:最直接原因指标项没有强线性关系,使用的参数不准确。只是为了熟悉下流程。

import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.sql.types.{DoubleType, FloatType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression

/**
  *
  * 数据集 http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
  * 房屋普查,预测房价
  * 数据集中的每个数据都代表一块区域内房屋和人口基本信息
  * 1.该地区中心的纬度(latitude)
  * 2.该地区中心的经度(longitude)
  * 3.区域内所有房屋屋龄的中位数(housingMedianAge)
  * 4.区域内总房间数(totalRooms)
  * 5.区域内总卧室数(totalBedrooms)
  * 6.区域内总人口数(population)
  * 7.区域内总家庭数(households)
  * 8.区域内人均收入中位数(medianIncome)
  * 9.该区域房价的中位数(medianHouseValue)
  *
  * A = bB+cC+dD+....+iI ,A代表房价,B到I分别代表另外八个属性
  * 假设影响是线性的
  *
  * 预处理
  * 1.房价值大,调整为小值
  * 2.有的属性没什么意义,比
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章