數據倉庫項目筆記4

原創

2019-09-03 10:01

知識點:

sparksession.createDataset 需要對元素序列化(發送到task), import sparksession.implicits_ 只支持基本數據類型和case class 序列化
自定義序列化 Encoders.kryo(clazz)
hive本地運行:set hive.exec.mode.local.auto=true 本地模式
with view as(select *from) 創建臨時表
hive分區dt 字段爲表默認字段
數據校驗方法: 可以用總數對比校驗
多維模型數據立方體全維度 group by fileds with cube
自由維度組合 grouping set((f1,f2),(f3))
更寬範圍取維度 rollup 從右到左維度變寬 (省市區街道)

下鑽	上卷	切片切塊	旋轉
取更細維度	取更寬維度	取部分維度	改變group by字段順序

需求:

日新日活主題分析: 對uid分組, 獲取日活通過歷史中間表獲取日新
日活: 每日從日誌中獲取的用戶
日新: 當日日活左連接歷史表歷史表中沒有的即爲日新
歷史表設計
歷史表由自己和當日日活求出:
日活中沒有在歷史表中的(即日新) 則添加到歷史表並且首登日期和末登日期爲當日, 如果存在歷史表中則將末登日期修改爲當日使用full join實現
認知(儘量使用if 不使用where union)
首登日期可求出日新最後登錄日期可求出日活(爲留存和新鮮度打基礎)

日期	用戶id	用戶首登日期	最後登錄日期

對比流量主題分析: 通過對uid sessionid 分區統計出pv uv 時長訪問次數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop Installation - Pseudodistributed Mode

Hadoop Installation - Pseudodistributed Mode 目錄 Hadoop Installation - Pseudodistributed Mode 目錄準備條件安裝配置配置 ss

2020-07-08 06:35:36

Oracle Sql 轉 Spark SQL開發實踐中的思考與總結

實踐背景：將一段存在五重子查詢嵌套與數據轉換計算的Oracle SP(Sql Procedure)用Spark SQL實現。並且採用Java進行開發（不能用最愛的Scala了。。。）這段SQL的核心邏輯接近千行代碼，背後涉及到

2020-07-08 02:54:47

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

Scala_(2)_面向對象

1.類 class HiScala{ private var name="Spark" def sayName(){...} def getName = name } 創建實例：new HiScala 暴露get 方法

2020-07-07 15:16:54

Scala_(1)_基礎

1.函數 sum(1 to 100:_*)// 提取出1-100中的所有元素,並實現sum操作 2.lazy 只有在初次運行時調用如：lazy val content = fromFile(path) 3.集合 val a

2020-07-07 15:16:54

hive腳本的三種執行方式

1.hive控制檯執行，安裝了hive之後直接命令行輸入hive，進入控制檯。 2.hive -e "sql語句",直接輸入就會有結果，sql語句根據具體情況自己書寫 3.hive -f a.sql -hivevar table=p

2020-07-07 05:20:41

apache griffin本地安裝部署

1.下載到本地github地址：https://github.com/apache/griffin 2.解壓導入到idea,安心等待下載依賴jar包 3.修改service模塊下的三個配置文件，見圖片 4.編譯等待 5.右鍵運行 6

2020-07-07 05:20:31

創建redis集羣報錯：無法連接node

已經啓動redis，然後創建集羣時報[ERR] Sorry, can't connect to node *** 解決方法：進入client.rb配置文件，設置passwd ，再重新創建集羣即可。創建redis集羣成功

You丶小明快跑

2020-07-07 03:28:38

HBase基礎使用篇01

HBase 高併發處理方案簡圖一、概述官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。

沙滩上的漫步者

2020-07-06 15:48:54

Spark 源碼分析（六）: Executor 向 driver 進行註冊

前一篇文章介紹了 Executor 進程的啓動，最後啓動的是 CoarseGrainedExecutorBackend，執行啓動命令後會執行它的 main 方法，啓動 CoarseGrainedExecutorBackend 進程

2020-07-06 10:37:09

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

Hive中數據導入與導出

1 數據導入 1.1 向表中裝載數據（Load） 1．語法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table s

2020-07-06 01:32:21

24小時熱門文章

最新文章

最新評論文章