[MongoDB基础]-- Spark 写 Dataframe 数据到 Mongo

原創

highfei2011

2020-06-22 07:01

如何将 Dataframe 数据写入 Mongo

1、准备

环境：Spark 2.3.1 + Mongo 4.2.3 +scala -2.11.8+ jdk 1.8.0 + Hadoop-2.7.3
业务：将 json 数据使用 spark 读出来，然后写入 mongo

2、输入数据

json 格式

{
    "name": "BeJson",
    "url": "http://www.bejson.com",
    "page": 88,
    "isNonProfit": true,
    "address": {
        "street": "科技园路.",
        "city": "江苏苏州",
        "country": "中国"
    },
    "links": [
        {
            "name": "Google",
            "url": "http://www.google.com"
        },
        {
            "name": "Baidu",
            "url": "http://www.baidu.com"
        },
        {
            "name": "SoSo",
            "url": "http://www.SoSo.com"
        }
    ]
}

3、代码

package cn.secrank.fdp.sinan.spark.apps
import com.mongodb.spark.MongoSpark
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.slf4j.LoggerFactory

object WriteJsonToMongoProcessing {
  private lazy val logger = LoggerFactory.getLogger(v.getClass)
  def main(args: Array[String]): Unit = {
    logger.warn(s"@@@@@@ 输入的参数长度是：[${args.length}]")
    if (args.length > 0) {
      System.err.println("@@@@@@ 参数输入有误，请重新输入！")
      System.exit(0)
    }

    val database = "your_database"
    val collection = "your_collection"
    val host = "127.0.0.1"
    val outPutUri = s"mongodb://$host/"

    val inputPath ="you_data.json"

    val spark = SparkSession
      .builder()
      .master("local[2]")
      .config("spark.mongodb.output.uri", outPutUri)
      .config("spark.mongodb.output.database",database)
      .config("spark.mongodb.output.collection",collection)
      .config("spark.mongodb.output.maxBatchSize",1024)
      .appName("MongoSparkConnectorIntro")
      .getOrCreate()

    val df =spark
      .read
      .json(inputPath)

    MongoSpark.save(
      df
        .write
        .mode(SaveMode.Overwrite)
    )

    spark.stop()

  }
}

4、查询

$ mongo

$ use  your_database

$ db.getCollection('your_collection').find({}).count()

5、参考文档

option：https://docs.mongodb.com/spark-connector/master/configuration/#spark-output-conf
dataset操作：https://docs.mongodb.com/spark-connector/master/scala/datasets-and-sql/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[MongoDB基础]-- Spark 写 Dataframe 数据到 Mongo

如何将 Dataframe 数据写入 Mongo

1、准备

2、输入数据

3、代码

4、查询

5、参考文档

linux安装cuda和cudnn

模拟手机设备：使用 Playwright 实现移动端自动化测试

Mellanox网卡开启SR-IOV

全面系统的AI学习路径，帮助普通人也能玩转AI

HTML 00 Tutorial

uni-app实现上拉加载

vue3编译优化之“静态提升”

又是一个月-20240513

flask 如何保证返回json有序

linux服务器设置ssh免密

【Java 基礎】-- 爲什麼需要實現 Serializable 接口

[CDH 基礎]-- tsquery 語言指南(CDH 6.3.0)

[Flink 基礎]-- 端到端的精準一次語義實現

[Hive 進階]-- 7種可以提高 Hive 查詢速度的方法

[Spark 學習]--1.2 Spark core

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結