spark1.2.0版本搭建僞分佈式環境

原創

2020-02-21 06:39

、下載scala2.11.5版本，下載地址爲：http://www.scala-lang.org/download/2.11.5.html

2、安裝和配置scala：

第一步：上傳scala安裝包並解壓

第二步配置SCALA_HOME環境變量到bash_profile

第三步 source 使配置環境變量生效：

第四步驗證scala：

3、下載spark 1.2.0，具體下載地址：http://spark.apache.org/downloads.html

4、安裝和配置spark：

第一步解壓spark：

第二步配置SPARK_HOME環境變量：

第三步使用source生效：

進入spark的conf目錄：

第四步修改slaves文件，首先打開該文件：

slaves修改後：

第五步配置spark-env.sh

首先把spark-env.sh.template拷貝到spark-env.sh：

然後打開“spark-env.sh”文件：

spark-env.sh文件修改後：

5、啓動spark僞分佈式幫查看信息：

第一步先保證hadoop集羣或者僞分佈式啓動成功，使用jps看下進程信息：

如果沒有啓動，進入hadoop的sbin目錄執行 ./start-all.sh

第二步啓動spark：

進入spark的sbin目錄下執行“start-all.sh”：

此刻我們看到有新進程“Master” 和"Worker"

我們訪問“http://master:8080/”，進如spark的web控制檯頁面：

從頁面上可以看到一個Worker節點的信息。

我們進入spark的bin目錄，使用“spark-shell”控制檯：

通過訪問"http://master:4040"，進入spark-shell web控制檯頁面：

6、測試spark僞分佈式：

我們使用之前上傳到hdfs中的/data/test/README.txt文件進行mapreduce

取得hdfs文件：

對讀取的文件進行一下操作：

使用collect命令提交併執行job：

readmeFile.collect

查看spark-shell web控制檯：

states：

端口整理：

master端口是7077

master webui是8080

spark shell webui端口是4040

發佈了60 篇原創文章 · 獲贊 0 · 訪問量 1萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

Scala網絡編程：代理設置與Curl庫應用實例

在網絡編程的世界裏，Scala以其強大的併發模型和函數式編程特性，成爲了開發者的得力助手。然而，網絡請求往往需要通過代理服務器進行，以滿足企業安全策略或訪問控制的需求。本文將深入探討如何在Scala中使用Curl庫進行網絡編程，包括設置代

2024-06-14 00:06:31

網頁爬蟲開發：使用Scala和PhantomJS訪問知乎

引言隨着大數據時代的到來，網頁爬蟲作爲一種高效的數據收集工具，被廣泛應用於互聯網數據抓取和信息抽取。而知乎是一個知識分享平臺，擁有大量的用戶生成內容。通過爬蟲獲取知乎數據，企業和研究人員可以進行深入的數據分析和市場研究，瞭解用戶的需求

2024-05-31 00:11:23

Flink1.12 文檔

API 移除掉 ExecutionConfig 中過期的方法移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可以使用 ExecutionConfig#getLatencyTracki

2024-05-13 21:17:28

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

Sql Server數據庫sql語句去除所有空格

空格包含一般空格和特殊空格。 1、一般空格前後的空格，使用LTRIM()和RTRIM()即可，例如：LTRIM(RTRIM(name)) 中間的空格，使用REPLACE()函數替換，例如：REPLACE(name,' ','') 2、特殊

2024-05-08 23:32:56

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

【案例+PPT】普元信息臧一超：海量數據下“流批一體”的數據平臺演進路線

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息數智研究院副院長臧一超在峯會發表演講《海量數據下的高性能流批一體數據開發平臺》。 18分鐘完整回放視頻見文末，拎幾個特別精彩的內

2024-04-23 11:43:51

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

24小時熱門文章

最新文章

最新評論文章