spark入門【大數據spark】

原創

2020-06-19 15:04

1. spark簡介

Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。

2. Spark安裝

2.1 安裝jdk

2.2 配置spark

官網下載spark安裝包
官網地址下載地址
上傳至虛擬機，修改配置文件

spark-env.sh

export JAVA_HOME=/root/app/langEnv/jdk8
export SPARK_MASTER_HOST=hadoop-master
export SPARK_MASTER_PORT=7077

slaves

2.3 啓動

命令： ./sbin/start-all.sh
jps: Master、worker
web： http://192.168.200.168:8080/

3. spark Hello World

利用spark自帶程序計算π的值

命令

./bin/spark-submit --master spark://hadoop-master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.5.jar 100

注意

默認每個executor使用一個G的內存，通過參數–executor-memory xxxmb指定（必須在jar之前）
默認一個任務會使用完所有的cpu核，通過參數–total-executor-cores num 指定

4.Spark-shell

啓動本地模式
./bin/spark-shell
集羣模式
- 默認他也是一個spark-submit，並且默認佔用所有的核以及1G的內存
  ./bin/spark-shell --master spark://hadoop-master:7077
執行wordCount
- 注意：此處我是單機，如果是多機集羣則每一個executor得機器上都需要對應的文件

sc.textFile("/root/testData/w.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

統計hdfs文件夾內所有文件的詞頻

sc.textFile("hdfs://hadoop-master:9000/words").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度解讀數據庫引入LLVM技術後如何提升性能

GaussDB作爲企業級的數據庫，經過了多年的技術發展，具備豐富的技術特性，使用LLVM技術後提升了系統的查詢性能，使得開發者在OLAP和OLTP多場景中均受益。 Hi，別急！讓技術觸達每一個角落，賦能更多的人，GaussTech第3期

2024-06-12 10:56:55

ClickHouse內幕（1）數據存儲與過濾機制

本文主要講述ClickHouse中的數據存儲結構，包括文件組織結構和索引結構，以及建立在其基礎上的數據過濾機制，從Part裁剪到Mark裁剪，最後到基於SIMD的行過濾機制。數據過濾機制實質上是構建在數據存儲格式之上的算法，所以在介紹過濾

2024-06-07 23:54:51

一文搞懂DevOps、DataOps、MLOps、AIOps：所有“Ops”的比較

引言近年來，"Ops"一詞在 IT 運維領域的使用迅速增加。IT 運維正在向自動化過程轉變，以改善客戶交付。傳統的應用程序開發採用 DevOps 實施持續集成（CI）和持續部署（CD）。但對於數據密集型的機器學習和人工智能（AI）應用，精

2024-06-07 14:08:38

JimuReport 積木報表 v1.7.5 版本發佈，免費的JAVA報表工具

項目介紹一款免費的數據可視化報表工具，含報表和大屏設計，像搭建積木一樣在線設計報表！功能涵蓋，數據報表、打印設計、圖表報表、大屏設計等！ Web 版報表設計器，類似於excel操作風格，通過拖拽完成報表設計。秉承“簡單、易用、專業”

2024-06-07 01:13:43

Java生成PDF文件，並將PDF轉爲圖片

引入依賴 <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId>

2024-06-12 23:21:32

SonarQube代碼質量檢測線上配置指南

SonarQube 是一個開源的代碼質量管理平臺，用於自動審查代碼，檢測潛在的錯誤、漏洞和不良實踐，以提高軟件質量。本文檔旨在指導您完成SonarQube在生產環境中的配置，確保您的項目代碼得到持續且有效的質量監控。 1. 環境準備 1.1

2024-06-12 01:12:57

雲原生週刊：Kubernetes 十週年｜ 2024.6.11

開源項目推薦 Kubernetes Goat Kubernetes Goat 是一個故意設計成有漏洞的 Kubernetes 集羣環境，旨在通過交互式實踐場地來學習並練習 Kubernetes 安全性。 kube-state-metrics

2024-06-11 23:16:00

「Java開發指南」如何使用Spring註釋器實現Spring控制器？（一）

本教程將引導您使用Spring Annotator實現Spring控制器，標準Java類被添加到搭建項目中，Spring Annotator Spring啓用Java類。雖然本教程的重點是Spring控制器，但是Spring Annota

2024-06-11 12:18:10

奇怪！應用的日誌呢？？

1. 問題回顧問題背景是在進行中臺應用中間件遷移過程中，發現存在項目啓動失敗或者項目正常啓動（jsf正常掛載並正常運行，mq正常發送和消費）但是無任何日誌打印現象。更奇怪的是不打印日誌竟然是偶發的，在測試環境中多次部

2024-06-11 11:55:14

華爲雲短信服務教你用C++實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用C++實現Smgp協議》，作者：張儉。引言&協議概述中國聯合網絡通信有限公司短消息網關係統接口協議（SGIP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message

2024-06-11 10:57:30

從缺陷到創新：質量保障的新視角

1.背景：最近一段時間研發大佬們在積極的治理告警，經過一段時間的治理，現在告警情況已經有了很大的改觀，但難免還有漏網之魚；具體我們可以以下邊一個例子來看：這是一個生產的UMP告警，通過這個告警我們發現XXX這個應用的堆內存使用率

2024-06-07 23:55:01

CI+GPT雙引擎驅動，開啓AI代碼評審新紀元

一. 現狀問題代碼評審 Code Review 是提高代碼質量、促進團隊合作、知識間共享的關鍵環節，對於系統代碼質量和穩定性都至關重要。【人爲代碼評審（Code Review）】存在很多弊端時間消耗大：代碼評審是一

京東雲開發者

2024-06-07 23:54:54

Java開發必讀，談談對Spring IOC與AOP的理解

本文分享自華爲雲社區《超詳細的Java後臺開發面試題之Spring IOC與AOP》，作者：GaussDB 數據庫。一、前言 IOC和AOP是Spring中的兩個核心的概念，下面談談對這兩個概念的理解。二、IOC（Inverse o

2024-06-07 22:57:21

Junit4遇上chatGPT

這是一篇適合Java工程師體質的AI開發教程。本教程會教你寫一個簡單的junit4的Rule，該Rule在基於junit4的測試方法失敗後，自動向GPT發送錯誤信息並通過GPT分析得出代碼修改建議。首先向AI問好簡單的通過AI，讓它

2024-06-06 23:55:13

一文搞懂 Spring 循環依賴

這個其實是一個特別高頻的面試題，松哥也一直很想和大家仔細來聊一聊這個話題，網上關於這塊的文章很多，但是我一直覺得要把這個問題講清楚還有點難度，今天我來試一試，看能不能和小夥伴們把這個問題梳理清楚，當然，如果小夥伴們覺得看文章不過癮，松哥也有

2024-06-06 13:11:47

24小時熱門文章

最新文章

最新評論文章