MAC本地搭建spark

原創

2020-04-21 23:48

Pyspark

安裝

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

求和

from pyspark import SparkContext,SparkConf
#
conf = SparkConf().setAppName("test").setMaster("local")
sc = SparkContext(conf=conf)
ll=[1,2,3,4]
rdd=sc.parallelize(ll,2)
rddsum=rdd.map(lambda x:x+1).reduce(lambda x,y:x+y)
print(rddsum)

單詞數統計
- 文件內容

a,b,c,d
aa,bb,cc,dd

統計每行的單詞數

rdd=sc.textFile("data")
# 統計每行的單詞數
linecnt=rdd.map(lambda x:len(x.split(","))).take(2)
print(linecnt)

# 返回 [4, 4]

Spark

通過intellij idea，新建maven項目，幾個要點：
- src文件夾需要make directory as source directory
- scala配置
- jdk配置

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>org.example</groupId>
    <artifactId>Spark</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java -->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.15</version>
        </dependency>
    </dependencies>
</project>

求和操作~

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object rdd {

  def main(args: Array[String]): Unit = {
    // 配置
    val conf=new SparkConf().setAppName("rdd").setMaster("local")
    val sc=new SparkContext(conf)
    // rdd is short for resilent distribute dataset

    // 讀取數據 - 自定義
    val data=Array(1,2,3,4,5)
    val distData=sc.parallelize(data,numSlices = 2)
    println(distData.map(line=>line+1).reduce((a,b)=>a+b))
}}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

MAC本地搭建spark

Pyspark

Spark

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

Spark同步mysql數據到hive

Pytorch autoencoder降維

Pytorch-基於colab對中文評論使用LSTM進行情感分析

RNN的幾種結構

Isolation Forest 孤立森林的理解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結