利用HDFS來解決Spark On Yarn模式解決Jar亂飛情況

原創

2021-04-12 21:24

Spark的jar包比較多，如果直接修改spark的jars目錄中的jar可能對用戶造成jar包衝突，也不利於管理，因爲可以利用HDFS存儲功能解決jar問題

1、在本地創建zip文件，壓縮jar包

# 進入到spark的jars目錄，在spark的jars目錄下壓縮包
zip spark.zip ./*

2、HDFS上創建存放spark jar目錄

hdfs dfs -mkdir -p /spark-yarn/jars

3、將$SPARK_HOME/jars下的spark.zip包上傳至剛健的HDFS路徑

[hadoop@hadoop jars]$ hdfs dfs -put ./spark.zip /spark-yarn/jars/

4、在spark-defaults.conf中添加(也可以在啓動時候 -conf 指定)

spark.yarn.archive hdfs://ruozedata001:9000/spark-jars/spark.zip

5、查看Spark log

yarn log -applicationID xxx

https://www.cnblogs.com/chhyan-dream/p/12799856.html

https://blog.csdn.net/naruto00001/article/details/79578520

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

hive分區和分桶你熟悉嗎？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

Apache DolphinScheduler-3.2.0集羣部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

2024-03-11 21:25:56

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

03-SparkSQL入門

0 Shark Spark 的一個組件，用於大規模數據分析的 SQL 查詢引擎。Shark 提供了一種基於 SQL 的交互式查詢方式，可以讓用戶輕鬆地對大規模數據集進行查詢和分析。Shark 基於 Hive 項目，使用 Hive 的元數據存

2024-03-24 02:48:20

Flink內存參數調優

背景 Flink作業設置內存參數後發現不是自己預期的資源分配方式，比如分配了4G內存結果只用了2G，其餘2G都是閒置的，導致Flink作業內存上限不夠用，內存超用時TaskManager容器會被Yarn集羣殺死。另外並行度與slot槽數在

2024-03-23 00:20:41

Flink自建集羣作業優化

1、如何消除流查詢的不確定性影響 set 'table.optimizer.non-deterministic-update.strategy' = 'TRY_RESOLVE'; 流查詢中的不確定更新(NDU)問題通常不是直觀的，可能較複雜

2024-03-13 12:20:17

24小時熱門文章

最新文章

最新評論文章