hive數據分析

原創

2018-08-27 00:22

最近在參與某toB項目，數據需離線統計出並推送至線上業務庫，其中用hive做的離線分析。總結寫下常見問題及心得吧。

一.流程類工作簡介：數據統計工作主要分爲四個步驟：指標統計、批量腳本、數據格式、異常流程；

step1. 指標統計：通過創建表存儲每個指標的值，例如用hive表loan_apply_rate存儲申請通過率；複雜度在於：指標值多，且指標定義可能不明確；

step2. 批量腳本：將step1創建的各張表綜合成批量執行的perl腳本；複雜度在於：若執行時間長，會影響業務方使用，可自行迭代出大小適中的perl腳本；

step3.數據格式：新建一張總表，該表存儲所有的指標值；並且將step2生成的錶轉化成業務方期望的數據格式。示例如下：

step4.異常流程：包括批量腳本父子任務執行順序異常，今日統計的數據異常時數據回滾或重新統計等，數據去重以及數據備份等；

二.hive統計遇到的問題和常見函數

1.指定爲月末：兩種方案：

1.1.case
when split(statistics_date,'-')[1] in ('1','3','5','7','8','10','12') then concat(statistics_date,'-31')
when split(statistics_date,'-')[1] in ('4','6','9','11') then concat(statistics_date,'-30')
when cast(split(statistics_date,'-')[0] as int)%4=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-29')
when cast(split(statistics_date,'-')[0] as int)%4!=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-28')

end as new_statistics_date

1.2. date_sub(concat(substr(concat(substr(created_date, 1, 7), '-01'), 1, 7), '-01'), 1)

2.常用函數：instr； months_between; select row_number()over(partition by cash_id order by modified_date desc) as rn

from table_a；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HIVE 權限配置 [沒有趟過坑的人生是不完美的]

這兩天被hive的權限問題,折騰的不輕.記錄一下 Hive的基本配置我就不細說了,自行配置,網上一堆堆的. 1.背景要求可以使用hdfs和hive用戶操作自己創建的數據庫. 權限不可亂. 要求,如下,[基本就是裸奔,沒做任何配置,但依舊

2020-07-08 02:23:22

Hive 窗口函數（Windowing Functions）

窗口函數對點擊流處理，和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析，希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語，意思是提前和延期。按照時間段統計時，有些

2020-07-08 12:17:40

hive使用tez環境配置

Tez引擎包下載： https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1：將下載的安裝包解壓 $ pwd /opt/ubd/

梦里却知是客

2020-07-08 11:59:58

tez 0.9.0 的安裝和測試

文章目錄1 tez的概覽1.1 tez介紹1.1.1 介紹2 tez的安裝2.1 tez下載2.2 tez源碼編譯2.3 tez的安裝2.3.1 解壓並配置環境2.3.2 配置配置文件2.4 tez、hadoop、hive整合2.

Aidon-东哥博客

2020-07-08 11:21:42

hive常用窗口函數

1 hive窗口函數在平時的開發中常用那些hive函數？？ 1、字符串操作函數？split、concat、ifnull、cast 2、聚合函數： hive適用於分析，所以常用。 3、時間函數：數倉的特徵隨時間變化而變化，所

Aidon-东哥博客

2020-07-08 11:21:42

hive配置教程詳解

使用到的工具 xshell centos7 xtpf apache-hive-2.3.6-bin mysql的驅動第一步：將下載好的hive安裝包上傳到/usr/local目錄下解壓解壓命令 tar -zxvf apache-

2020-07-08 11:12:13

datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是，hdfswriter寫入時的字段分隔符

2020-07-08 10:43:36

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

hive鎖的問題

hive鎖的問題最近在insert into 插入數據的時候遇到了hive鎖表的問題，下面是報錯信息，原因就是一張hive的臨時表被鎖造成報錯。 1.Hive中定義了兩種鎖的模式：共享鎖（S）和排它鎖（X），顧名思義，多個共

2020-07-08 09:11:58

Hive批量刪除一段時間分區和動態分區更新數據

Hive批量刪除一段時間分區和動態分區更新數據 1.hive動態分區 -- 批量刪除分區數據 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >=

2020-07-08 09:11:58

如何批量修改hive local的存儲位置

1、背景由於公司原有的oss訪問AK被泄露，引發安全問題，AK被運維禁用，大數據同學發現原來正常訪問hive，現在不能訪問了，仔細看了一下原因是AK被禁用導致。於是只能替換新的AK。我們建表語句是 CREATE DATABA

2020-07-08 05:08:59

spark-sql使用hive的自定函數配置

1、spark-sql可以直接使用hive的自定義函數，而不需要重新寫一套spark-sql的自定義函數，這裏較大家一個簡單的配置方式即可 2、將hive的自定義函數jar拷貝到/usr/lib/spark-current/jars，我們

2020-07-08 05:08:59

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

24小時熱門文章

最新文章

最新評論文章