簡述

　　在用pyspark進行開發的時候，經常會遇到如何將pyspark讀取的數據使用xgboost的模型進行訓練，當然，如果是使用scala，可以直接使用xgboost4j，這個庫裏面提供了可以讀取rdd的數據文件的函數接口，通過scala可以很簡單的進行訓練，但是對於python用戶來說，如何使用pyspark和xgboost進行訓練，就比較難以處理了？
　　本人通過對libsvm的數據進行測試，實現了一套通過pyspark讀取數據，xgboost訓練的流程．

　　主要的思路是，首先，讀取libsvm的數據．然後，將pipelineRDD數據轉化爲pyspark的DataFrame的數據類型，最後，通過pyspark中DataFrame的數據類型提供的函數，將pyspark中的DataFrame轉化爲pandas中的DataFrame的數據類型．

代碼介紹

讀取libsvm數據類型

data = MLUtils.loadLibSVMFile(sc,'{}://{}'.format(FLAGS.file_path, FLAGS.source_path))
# split data to train , test
(trainingData, testData) = data.randomSplit([0.7, 0.3])

轉化label

def label_rdd_to_dataframe(sqlContext, data):
    label = data.map(lambda x: x.label)
    label_row = Row('label')
    label_rdd = label.map(lambda r: label_row(r))
    label_DF = sqlContext.createDataFrame(label_rdd)
    return label_DF.toPandas()

轉化features

def features_rdd_to_dataframe(sqlContext, data):
    features = data.map(lambda x: Vectors.dense(x.features.toArray()))
    attribute_str = ['attributes[{}]'.format(i) for i in range(len(features.take(1)[0]))]
    features_rdd = features.map(lambda attributes: [float(eval(value)) for value in attribute_str])
    features_DF = sqlContext.createDataFrame(features_rdd)
    return features_DF.toPandas()

訓練xgboost

# transform train data
label_train_DF = label_rdd_to_dataframe(sqlContext, trainingData)
features_train_DF = features_rdd_to_dataframe(sqlContext,trainingData)
train_data = xgb.DMatrix(features_train_DF, label=label_train_DF)

# transform test data
label_test_DF = label_rdd_to_dataframe(sqlContext, testData)
features_test_DF = features_rdd_to_dataframe(sqlContext, testData)
test_data = xgb.DMatrix(features_test_DF, label= label_test_DF)

# params
param_dict = {'eta':FLAGS.eta,
              "max_depth":FLAGS.max_depth,
              "silent":FLAGS.silent,
              "objective":FLAGS.objective,
              "lambda":FLAGS.xgb_lambda,
              "nthread":FLAGS.nthread}
evallist = [(test_data, 'eval'), (train_data, 'train')]
num_round = FLAGS.num_round

# train
model = xgb.train(param_dict,
                  train_data,
                  num_round,
                  evallist)

完整代碼鏈接：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何將pyspark的rdd數據類型轉化爲DataFrame

簡述

代碼介紹

讀取libsvm數據類型

轉化label

轉化features

訓練xgboost

python gdal 安裝使用（Windows， python 3.6.8）

nlp相關會議總結

線性規劃-概念與公式總結

對話機器人綜述

分散式的句子和文件表示

設計模式之小結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結