原创 AB實驗相關流程

本篇文章介紹的是一個完整AB測試流程應該怎麼走。   AB測試流程有以下幾個步驟: 一、選取實驗指標 二、建立實驗假設 三、選取實驗單位 四、確定最小提升預期值 五、計算最小樣本量 六、流量分割 七、確定實驗時長 八、數據統計 九

原创 hivesql 累加計算

數據分析筆試中累加問題是非常常見的考題,今天我們用一個函數來搞定它 sum over(partition by 分組列 order by 排序列 rows between 開始位置 preceding and 結束位置 followin

原创 hivesql 實現collect_list內排序

假設我有一個看起來像這樣的蜂巢表: ID event order_num ------------------------ A red 2 A blue 1 A ye

原创 2023年日曆維度數據

建表語句,如下:    DROP TABLE IF EXISTS dim_date_info;    CREATE EXTERNAL TABLE dim_date_info(        `date_id` STRING COMMENT

原创 常用spark優化參數

常用spark優化參數 強制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 雙寫HDFS開啓: set spark.s

原创 clickhouse 實現同環比

背景我們知道clickhouse一般都是處理單表的數據,經常需要實現同環比等分析場景,這裏提供兩種方式:首先計算公式: 同比、環比分析是一對常見的分析指標,其增長率公式如下: 同比增長率 =(本期數 - 同期數) / 同期數 環比增長率

原创 presto 原理介紹

olap Druid :是一個實時處理時序數據的OLAP數據庫,因爲它的索引按照時間分片,查詢的時候也是按照時間線去路由索引。 Kylin核心是Cube,Cube是一種預計算技術,基本思路是預先對數據作多維索引,查詢時只掃描索引而不訪問

原创 安裝 Superset 和ClickHouse

安裝 Superset 和ClickHouse Superset 安裝可以參考我之前的隨筆 ClickHouse 安裝 ClickHouse 的驅動包 pip install clickhouse-sqlalchemy 配置 ClickHo

原创 windows部署superset

解決的問題 在WIN10環境下,安裝並正常運行Superset 建議使用Python虛擬環境,減少庫依賴衝突 不需要安裝VC啦! 注意 本教程安裝的版本是1.5 Superset在2022年7月發佈了2.0的大版本更新 如pyt

原创 DBeaver 導入csv到myql發現的時間問題

最近工作使用了一段時間的的數據庫客戶端 DBeaver,發現客戶端顯示時間不正確。時間保存之後發現日期經常自動-1。 這期間做了大量測試和分析,一開始以爲時csv格式問題,反覆導入最終查到是因爲時區問題導致的日期-1,解決方式如下。   解

原创 pandas vs sql 基本操作對比

作爲一名數據分析師,平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。對於存儲在數據庫中的數據,自然用SQL提取會比較方便,但有時我們會處理一些文本數據(txt,csv),這個時候就不太好用SQL了。Python也是分析師常

原创 AB實驗基本流程

    知識點        基本流程        實驗分層問題        最小樣本量計算            均值類            比值類        SRM檢驗        指標檢驗            比值類  

原创 hive 的order by ,sort by,distribute by,cluster by

order by order by會對輸入做全局排序,因此只有一個Reducer(多個Reducer無法保證全局有序),然而只有一個Reducer,會導致當輸入規模較大時,消耗較長的計算時間,在生產環境中遇到數據量較大的情況,一般無法成功。

原创 K-means分箱

  一、“分箱”定義 各行各業的打工人,經常會面對一種令人尷尬的質疑:爲什麼你把15-25歸爲一類,10-20不行嗎?13-23不行嗎?   以及地產乾飯人經常會被問到的:120-140㎡是主力,那119㎡行不行,118㎡呢?這個時候,通

原创 hive自增ID

自增列的生成   over()裏不帶排序或order by 1是一樣的效果   select row_number() over() as id,a1.id,relationwords,relation_words from ods.od