JdbcRDD在多个分区情况下是如何读取数据的

原創

nuc2015

2018-09-17 23:36

package nuc.sw.test

import java.sql.{Connection, DriverManager}

import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

/**
  * created by 刘卫卫 on 2018/9/16 21:33
  */
object JdbcRddDemo {
  val getConnction = () => {
    val URL = "jdbc:mysql://localhost:3306/spark?characterEncoding=UTF-8"
    val USER = "root"
    val PASS = "******"
    DriverManager.getConnection(URL, USER, PASS)
  }

  def main(args: Array[String]): Unit = {
    //将数据库中的数据使用RDD进型计算
    //spark提供了jdbcRDD

    val conf: SparkConf = new SparkConf().setAppName("JdbcRddDemo").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(conf)

    val jdbcRdd = new JdbcRDD(
      sc,
      getConnction,
      "select * from httplog where id > ? and id < ?",
      1,
      10,
      2,
      rs=>{
        val id = rs.getInt("id")
        val tel = rs.getString("tel")
        val province = rs.getString("province")
        val city = rs.getString("city")
        val isp = rs.getString("isp")
        (id, tel, province, city, isp)
      }
    )

    val buffer = jdbcRdd.collect().toBuffer

    println(buffer)

    sc.stop()

  }
}

执行：select * from httplog where id > ? and id < ?

当多个分区读取数据的时候，尽量让多个分区的数据读取均匀。

假设第一个分区分到的数据为1---5，第二个分区分到的数据为6---10

第一个分区读取的时候就会读 1<id<5

第二个分区读取的时候就会读 6<id<10

ArrayBuffer((2,13026230503,江西,鹰潭,联通), (3,13826544101,广东,深圳,移动), (4,15013685858,广东,深圳,移动), (7,15989002119,广东,广州,移动), (8,13926435656,广东,广州,移动), (9,13560439658,广东,广州,移动))

所有就会丢掉一部分数据。所有尽量不要用 '>' 或 '<' 这样的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

JdbcRDD在多个分区情况下是如何读取数据的

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

關於定時任務一個批次起止時間的算法設計與實現

SpringBoot前後端分離跨域導致的Sessionid不一致問題解決辦法

WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources

如何運行一個uve.js項目

時隔一年後的面經總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結