Spark同步mysql数据到hive

原創

huangqihao723

2020-06-19 01:19

第一步：从maven中下连接mysql的jar包

第二步：spark2-shell --jars mysql-connector-java-8.0.15.jar

第三步：

// scala 版

val df = spark.read.format("jdbc").option("url", "jdbc:mysql://rr-bp1d22ltxgwa09g44720.mysql.rds.aliyuncs.com/"+dbname+"?useUnicode=true&characterEncoding=UTF-8").option("driver", "com.mysql.jdbc.Driver").option("fetchsize", 1000).option("numPartitions", 2).option("dbtable", "(select * from " + tablename + ") as t").option("user", "用户名").option("password", "密码").load()

df.write.mode("Overwrite").saveAsTable("写入hive的表名")

如果要同步很多，将上述的代码封装成一个函数，然后做for循环就好了！！

Hive1.1版本不支持Date数据类型，所以遇到这个情况，先把Date类型转换为String类型，我这边用最笨的方法，构建HSQL来进行转换

# scala 版本

var columns=df.columns.toBuffer
val dateTypecolumns=Array("last_biz_date","final_repayment_day","principal_settled_day","value_date")

columns--=dateTypecolumns

val temp="CAST(last_biz_date AS STRING), CAST(final_repayment_day AS STRING), CAST(principal_settled_day AS STRING), CAST(value_date AS STRING)"

val temp2=temp+','+columns.mkString(",")

def get_columns(x:String)={
   val df=spark.sql(s"select $x from df")
   df
}
    get_columns(temp2).write.mode("Overwrite").saveAsTable("hive表名")

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark同步mysql数据到hive

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

.NET周刊【5月第2期 2024-05-12】

Spark同步mysql數據到hive

Pytorch autoencoder降維

Pytorch-基於colab對中文評論使用LSTM進行情感分析

RNN的幾種結構

Isolation Forest 孤立森林的理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結