Spark SQL学习

原創

2020-02-20 15:04

（一）编程实现将 RDD 转换为 DataFrame

使用编程接口，构造一个 schema 并将其应用在已知的 RDD 上。

命令：

结果：

（二）编程实现利用 DataFrame 读写 MySQL 的数据

数据库中已有的表：

对此表插入两个数据操作：

导包：

代码解说：

1.//下面我们设置两条数据表示两个学生信息
2.val studentRDD = spark.sparkContext.parallelize(Array("3 Rongcheng M 26","4 Guanhua M 27")).map(_.split(" "))
3. 
4.//下面要设置模式信息
5.val schema = StructType(List(StructField("id", IntegerType, true),StructField("name", StringType, true),StructField("gender", StringType, true),StructField("age", IntegerType, true)))
6. 
7.//下面创建Row对象，每个Row对象都是rowRDD中的一行
8.val rowRDD = studentRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).trim, p(3).toInt))
9. 
10.//建立起Row对象和模式之间的对应关系，也就是把数据和模式对应起来
11.val studentDF = spark.createDataFrame(rowRDD, schema)
12. 
13.//下面创建一个prop变量用来保存JDBC连接参数
14.val prop = new Properties()
15.prop.put("user", "root") //表示用户名是root
16.prop.put("password", "hadoop") //表示密码是hadoop
17.prop.put("driver","com.mysql.jdbc.Driver") //表示驱动程序是com.mysql.jdbc.Driver
18. 
19.//下面就可以连接数据库，采用append模式，表示追加记录到数据库spark的student表中
20.studentDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/spark", "spark.student", prop)
21.val jdbcDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.jdbc.Driver").option("dbtable","student").option("user","root").option("password", "8186123").load()//配置Spark通过jdbc连接数据库mysql
22.jdbcDF.agg("age" -> "max", "age" -> "sum").show()//最后打印age的最大值和总和

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

24-5-18 X

自 3 月 31 號回來之後，這兩個月像是失去了方向一般，對很多事都提不起興趣。今天和 X 聊了聊，他還是以前那個熟悉的樣子。高中的時候，他是我們班裏公認的第一，我們是普通班，但他有着實驗班的實力，事實上，高考時他全校第三，後來去了美國

Higurashi-kagome

2024-06-01 14:30:43

【dubbo】如何测试一个dubbo服务呢？

rpc服務框架——dubbo https://cn.dubbo.apache.org/zh-cn/blog/2023/02/23/一文幫你快速瞭解-dubbo-核心能力/ 自制項目： https://github.com/Jinwenxin

金大鑫要堅持

2024-06-01 14:29:53

kubeconfig 多个集群配置如何切换

kubectl config get-contexts kubectl config use-context <context-name> kubectl config current-context

2024-06-01 14:27:53

两台windowserver服务器配置Redis哨兵集群

十年河東，十年河西，莫欺少年窮學無止境，精益求精 redis下載地址：https://github.com/tporadowski/redis/releases 這裏選擇壓縮版，不選擇安裝版 1、集羣環境主機master: 局域網

2024-06-01 14:24:12

oidc-client.js踩坑吐槽贴

前言前面選用了IdentityServer4做爲認證授權的基礎框架,感興趣的可以看上篇<微服務下認證授權框架的探討>,已經初步完成了authorization-code與implicit的簡易demo(html+js 在IIS部署的站點)

2024-06-01 14:23:02

微盟电商-以造数工厂为底座的低成本自动化应用实现（一）

微盟電商-以造數工廠爲底座的低成本自動化應用實現 SAAS服務的特點是能夠以同一套代碼基礎，服務各種使用場景的客戶，由此帶來的業務組合與配置的多樣性是造成測試在造數環節以及自動化測試的實施階段面臨繁瑣與困難的根本原因。如何確保自動化的高效實

2024-06-01 14:20:12

Mac Brew install慢的问题

# 替換brew.git: jimmy@MacBook-Pro Library % cd "$(brew --repo)" jimmy@MacBook-Pro Homebrew % git remote set-url origin htt

2024-06-01 14:18:02

Vue devDependencies 与 dependencies 能别

Vue devDependencies 與 dependencies 能別，如何往項目的node_modules安裝組件概述 devDependencies 用於本地環境開發只會在開發環境下依賴的模塊，生產環境不會被打入包內（通過

2024-06-01 14:18:02

mysql 超大大数据库复制前可执行的加速导入的SQL

use 數據庫;set global innodb_flush_log_at_trx_commit=0;set global max_allowed_packet=1024*1024*20;set global bulk_insert_bu

2024-06-01 14:14:21

css25 CSS Tables

https://www.w3schools.com/css/css_table.asp css25 CSS Tables CSS Tables The look of an HTML table can be greatly improv

2024-06-01 14:13:21

css29 CSS Layout - The z-index Property

https://www.w3schools.com/css/css_z-index.asp CSS Layout - The z-index Property The z-index property specifies th

2024-06-01 14:13:21

css28 CSS Layout - The position Property

https://www.w3schools.com/css/css_positioning.asp CSS Layout - The position Property The position property specifies t

2024-06-01 14:13:21

css26 CSS Layout - The display Property

https://www.w3schools.com/css/css_display_visibility.asp CSS Layout - The display Property The display property is

2024-06-01 14:13:21

css31 CSS Layout - float and clear

https://www.w3schools.com/css/css_float.asp CSS Layout - float and clear The CSS float property specifies how an

2024-06-01 14:13:21

css27 CSS Layout - width and max-width

https://www.w3schools.com/css/css_max-width.asp CSS Layout - width and max-width Using width, max-width and margi

2024-06-01 14:13:21

24小時熱門文章

最新文章

最新評論文章