Spark-線性迴歸示例01

房屋普查,預測房價,最後預測結果不太準確,後續會調整,可能的原因:最直接原因指標項沒有強線性關係,使用的參數不準確。只是爲了熟悉下流程。

import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.sql.types.{DoubleType, FloatType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression

/**
  *
  * 數據集 http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
  * 房屋普查,預測房價
  * 數據集中的每個數據都代表一塊區域內房屋和人口基本信息
  * 1.該地區中心的緯度(latitude)
  * 2.該地區中心的經度(longitude)
  * 3.區域內所有房屋屋齡的中位數(housingMedianAge)
  * 4.區域內總房間數(totalRooms)
  * 5.區域內總臥室數(totalBedrooms)
  * 6.區域內總人口數(population)
  * 7.區域內總家庭數(households)
  * 8.區域內人均收入中位數(medianIncome)
  * 9.該區域房價的中位數(medianHouseValue)
  *
  * A = bB+cC+dD+....+iI ,A代表房價,B到I分別代表另外八個屬性
  * 假設影響是線性的
  *
  * 預處理
  * 1.房價值大,調整爲小值
  * 2.有的屬性沒什麼意義,比
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章