數據倉庫項目筆記2

原創

2019-09-06 00:17

業務需求:
1 清洗過濾: 去除不必要的字段和無效數據
2 數據解析: 解析數據爲扁平格式
3 數據集成: 根據經緯度添加省市縣信息
4 數據存儲: 存儲爲parquet格式
所用技術:
spark
json解析
廣播變量
所學:
shuffle : 一批數據需要分配到不同地方纔能完成任務
spark運行機制: rdd的遇到action算子, 開始彙總rdd 從最後一個rdd往前推, 是否與前一個rdd有shuffle
則切分stage, 一個stage(一段邏輯)中有多個邏輯相同task組成taskset 最後輸出數據的task叫resultTask 其他叫shuffleTask stage類似

mapPartitions和map的區別
mapPartitions 一個分區使用一個函數來處理
map 一條數據使用一個函數來處理

dataset和dataset[row]區別
dataset是強類型 data[row]是弱類型存儲全部類型
類似java中類和map關係, jsonobject 和 jsonobject得到自定義類關係

廣播變量:
一個executor使用一個廣播變量, 基於序列化分隔發送到不同executor,然後每個executor下載其他executor中的序列化部分, 然後反序列化共這個executor中的所有task使用, 並實現端join
兩個rdd join(copartition 不需要shuffle) 需要經過shuffle 是reduce端join 可造成數據傾斜
task數量和分區數量相同(分區由block塊決定)
task 包含mapreduce中maptask和reducetask 即做任務分配又做shuffle數據準備或者做shuffle的拉取和做shuffle數據準備
sparksql 默認shuffle 200個

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop Installation - Pseudodistributed Mode

Hadoop Installation - Pseudodistributed Mode 目錄 Hadoop Installation - Pseudodistributed Mode 目錄準備條件安裝配置配置 ss

2020-07-08 06:35:36

Oracle Sql 轉 Spark SQL開發實踐中的思考與總結

實踐背景：將一段存在五重子查詢嵌套與數據轉換計算的Oracle SP(Sql Procedure)用Spark SQL實現。並且採用Java進行開發（不能用最愛的Scala了。。。）這段SQL的核心邏輯接近千行代碼，背後涉及到

2020-07-08 02:54:47

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

Scala_(2)_面向對象

1.類 class HiScala{ private var name="Spark" def sayName(){...} def getName = name } 創建實例：new HiScala 暴露get 方法

2020-07-07 15:16:54

Scala_(1)_基礎

1.函數 sum(1 to 100:_*)// 提取出1-100中的所有元素,並實現sum操作 2.lazy 只有在初次運行時調用如：lazy val content = fromFile(path) 3.集合 val a

2020-07-07 15:16:54

hive腳本的三種執行方式

1.hive控制檯執行，安裝了hive之後直接命令行輸入hive，進入控制檯。 2.hive -e "sql語句",直接輸入就會有結果，sql語句根據具體情況自己書寫 3.hive -f a.sql -hivevar table=p

2020-07-07 05:20:41

apache griffin本地安裝部署

1.下載到本地github地址：https://github.com/apache/griffin 2.解壓導入到idea,安心等待下載依賴jar包 3.修改service模塊下的三個配置文件，見圖片 4.編譯等待 5.右鍵運行 6

2020-07-07 05:20:31

創建redis集羣報錯：無法連接node

已經啓動redis，然後創建集羣時報[ERR] Sorry, can't connect to node *** 解決方法：進入client.rb配置文件，設置passwd ，再重新創建集羣即可。創建redis集羣成功

You丶小明快跑

2020-07-07 03:28:38

HBase基礎使用篇01

HBase 高併發處理方案簡圖一、概述官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。

沙滩上的漫步者

2020-07-06 15:48:54

Spark 源碼分析（六）: Executor 向 driver 進行註冊

前一篇文章介紹了 Executor 進程的啓動，最後啓動的是 CoarseGrainedExecutorBackend，執行啓動命令後會執行它的 main 方法，啓動 CoarseGrainedExecutorBackend 進程

2020-07-06 10:37:09

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

Hive中數據導入與導出

1 數據導入 1.1 向表中裝載數據（Load） 1．語法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table s

2020-07-06 01:32:21

24小時熱門文章

最新文章

最新評論文章