房屋普查,预测房价,最后预测结果不太准确,后续会调整,可能的原因:最直接原因指标项没有强线性关系,使用的参数不准确。只是为了熟悉下流程。
import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.sql.types.{DoubleType, FloatType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
/**
*
* 数据集 http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
* 房屋普查,预测房价
* 数据集中的每个数据都代表一块区域内房屋和人口基本信息
* 1.该地区中心的纬度(latitude)
* 2.该地区中心的经度(longitude)
* 3.区域内所有房屋屋龄的中位数(housingMedianAge)
* 4.区域内总房间数(totalRooms)
* 5.区域内总卧室数(totalBedrooms)
* 6.区域内总人口数(population)
* 7.区域内总家庭数(households)
* 8.区域内人均收入中位数(medianIncome)
* 9.该区域房价的中位数(medianHouseValue)
*
* A = bB+cC+dD+....+iI ,A代表房价,B到I分别代表另外八个属性
* 假设影响是线性的
*
* 预处理
* 1.房价值大,调整为小值
* 2.有的属性没什么意义,比