SparkSql讀取數據和插入數據

原創

2018-09-04 17:57

一、sparksql讀寫mysql數據

1.讀取

val url = "jdbc:mysql://主機名:端口號"
val tableName = "db_name"
val properties = new java.util.Properties()
properties.put("user", "username")
properties.put("password", "password")
val tbDeptDF = sqlContext.
               read. // 獲取數據讀取對象
               jdbc(url, tableName, properties)

2.寫入

val url = "jdbc:mysql://主機名:端口號"
val tableName = "db_name"
val properties = new java.util.Properties()
properties.put("user", "username")
properties.put("password", "password")
df.write.jdbc(url, tableName, properties)
// df.write.mode("append").jdbc(url, tableName, properties)//追加寫入
//df.write.mode("overwrite").jdbc(url, tableName, properties)//重新寫入
// df.write.mode("ignore").jdbc(url, tableName, properties)//忽略寫入

二、sparksql讀寫parquet格式的數據

1.讀取

val df1 = sqlContext.
          read. // 獲取數據讀取對象
          format("parquet"). // 指定格式
          load("/存儲路徑")
val df1 = sqlContext.
          read. // 獲取數據讀取對象
          format("parquet"). // 指定格式
          load("/存儲路徑")//可以是文件夾，也可以是指定文件

2.寫入

df. write. // DF數據寫出對象
              format("parquet"). // 指定文件格式
              mode("overwrite"). // 給定模式是覆蓋
              save("/路徑") // 給定保存路徑，存在在hdfs
df.repartition(3). // 重置分區數量爲3個
              write. // DF數據寫出對象
              format("parquet"). // 指定文件格式
              mode("overwrite"). // 給定模式是覆蓋
              save("/路徑") // 給定保存路徑，存在在hdfs

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark：對於提交命令的理解

如何使用spark-submit將打包好的jar提交到Spark上運行？打開終端，在終端中輸入spark-submit --help, 可以查看spark-submit的詳細幫助。下面說一下 spark-submit 的詳細幫助。

花和尚也有春天

2020-06-28 07:08:48

SparkSQL之DataFrame使用詳解

一、應用 1.show def show1(ss:SparkSession):Unit={ val df=ss.read.json("E:\\data\\spark\\dataframe\\test\\read\\pe

2020-07-06 16:08:42

spark-11.sparkSQL_2_sparkSQL執行模式

1.DSL模式通過調用方法來是實現。如： dataFrame.select("name").show dataFrame.filter($"age">25).show 2.SQL模式通過執行SQL。 1）先創建一張表：一

2020-07-04 08:37:58

Spark SQL（五）—— Spark SQL數據源

文章目錄1. 使用load（加載函數）、save（存儲函數）2. Parquet文件2.1 把其他文件轉換成Parquet文件2.2 支持Schema合併3. JSON文件4. JDBC4.1 方式一：read.format("j

2020-07-03 19:00:42

Spark SQL 基本概念

寫在前面的話：因爲本人在職，所以沒有充分的時間寫博客，所以經常是寫好整個框架，再陸陸續續的補充修改。所以如果發現什麼錯誤請留言。本文主要目的是記錄在閱讀Spark源碼時發現的SQL基本概念的知識遺漏，這樣可以更加快速的閱讀源碼的

2020-07-03 16:19:34

Spark-SQL常用調優參數彙總

本文主要是日常工作的積累，主要是簡單羅列了常見的spark SQL的參數及其含義。 #Job ID /Name spark.app.name=xxx #yarn 進行調度，也可以是mesos，yarn，以及standalone

2020-07-03 16:19:34

Spark：持久化存儲等級選取策略 /persist() / cache() /Storage Level

那麼我們應該如何選取持久化的存儲級別呢? 實際上存儲級別的選取就是Memory與CPU之間的雙重權衡，可以參考下述內容： (1)如果RDD的數據量對於集羣內存容量壓力較小，可以很好地兼容默認存儲級別(MEMORY ONLY),那麼優先使用

花和尚也有春天

2020-07-03 10:05:00

Spark：RDD checkpoint容錯機制

經過上一節的學習，我們瞭解到合理地將RDD持久化/緩存，不僅直接避免了RDD的重複計算導致的資源浪費和佔用還提升了RDD的容錯性，而且間接提升了分析任務的完成效率，那麼爲什麼又會需要基於checkpoint的容錯機制，在什麼情況下需要

花和尚也有春天

2020-07-03 10:05:00

第三天：SparkSQL

第1章 Spark SQL概述什麼是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了2個編程抽象：DataFrame和DataSet，來作爲分佈式SQL查詢的引擎。我們已經學習了Hive

2020-07-02 16:37:12

spark sql 自定義udf函數

import org.apache.spark.sql.functions._ def compare(value_missing: String, value: String): Boolean = { var fla

2020-07-02 03:31:34

Spark sql :load和save操做--spark學習筆記之一

一、load和save基礎操作對於spark SQL的DataFrame來說，無論是從什麼數據源創建出來的DataFrame，都有一些共同的load和save操作。 load操作主要用於加載數據，創建出DataFrame； save操作

2020-06-30 21:30:05

SparkSql 項目實戰

第 1 章準備數據我們這次 Spark-sql 操作中所有的數據均來自 Hive. 首先在 Hive 中創建表, 並導入數據. 一共有 3 張表: 1 張用戶行爲表, 1 張城市表, 1 張產品表 CREATE TABLE `use

2020-06-30 02:23:52

Dataframe中na.fill的用法

對兩個數據表如A，B取JOIN操作的時候，其結果往往會出現NULL值的出現。這種情況是非常不利於後續的分析與計算的，特別是當涉及到對這個數值列進行各種聚合函數計算的時候。 Spark爲此提供了一個高級操作，就是：na.

2020-06-24 04:47:25

SparkSQL學習（三）SparkSQL讀取Mysql的兩種方式

第一種：package Mysql import java.util.Properties import org.apache.spark.sql.DataFrame import org.apache.spark.sql.hive.H

匿名啊啊啊

2020-06-23 09:34:12

SparkSQL官網Java示例ERROR CodeGenerator: failed to compile問題

Table of Contents 問題代碼定位問題沒完呢？定位問題正確的代碼總結問題代碼 SparkSessionJavaTest.java package sparkSQL.apachedemo; import

2020-06-22 02:41:56

24小時熱門文章

最新文章

最新評論文章