Spark Pipeline

一、Spark Pipeline

一、Spark Pipeline

1.1 機器學習管道（Pipeline）

由一系列階段構成，每個階段是Transformer或Estimator，它們串聯到一起按照順序執行。

1.2 數據管道組件構成

Transformer：算法可以把一個DataFrame轉換成另一個DataFrame。

特徵轉換器（feature transformer），讀取輸入數據集中的一列（比如text），將產生新的特徵列。
學習模型（learning model），將一個有特徵列的DataFrame轉換成一個有預測信息的DataFrame。

EStimator：Estimator就是一種機器學習算法，會從輸入數據中進行學習，併產生一個訓練模型（Transformer）。

1.3 構建Pipeline

val training = spark.createDataFrame(Seq(
	(0L,"a b c d e spark",1.0),
	(1L,"b d",0.0),
	(2L,"spark f g h",1.0),
	(3L,"hadoop mapreduce",0.0)
)).toDF("id","text","label")

//配置ML Pipeline，包含三部分：tokenizer，hashingTF，lr。
val tokenizer = nwe Tokenizer()
	.setInputCol("text")
	.setOutputCol("words")
val hashingTF = new HashingTF()
	.setNumFeatures(1000)
	.setInputCol(tokenizer.getOutputCol)
	.setOutputCol("features")
val lr = new LogisticRegression()
	.setMaxIter(10)
	.setRegPaam(0.001)
val pipeline = new Pipeline()
	.setStages(Array(tokenizer,hashingTF,lr))

val model = pipeline.fit(training)

可以將已經fit後的操作，存入磁盤。

model.write.overwrite().save("/tmp/spark-logistic-regression-model")

1.4 預測Pipeline

val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")

val rawdata = spark.createDataFrame(Seq(
	(4L,"spark i j k"),
	(5L,"l m n"),
	(6L,"spark hadoop spark"),
	(7L,"apache hadoop")
)).toDF("id","text")

model.transform(rawdata)
	.select("id","text","probability","prediction")
	.collect()
	.foreach { case Row(id:Long,text:String,prob:Vector,prediction:Double)=>
		println(s"($id,$text)--> prob=$prob,prediction=$prediction)
}

愛是與世界平行

發佈了399 篇原創文章 · 獲贊 225 · 訪問量 33萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Pipeline

Spark Pipeline

一、Spark Pipeline

1.1 機器學習管道（Pipeline）

1.2 數據管道組件構成

1.3 構建Pipeline

1.4 預測Pipeline

杭州的 IT 崩盤了麼？

雲原生週刊：Kubernetes 十週年｜ 2024.6.11

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

WinForm應用實戰開發指南 - 表格數據錄入問題解析

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

Spring Boot 基礎，理論，簡介

四：SpringBoot-定時任務和異步任務的使用方式

一：Spring Boot 的配置文件 application.properties

二：SpringBoot-配置Log4j2，實現不同環境日誌打印

九：SpringBoot-整合Mybatis框架，集成分頁助手插件

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結