台部落DB樂之者

本篇文章介紹的是一個完整AB測試流程應該怎麼走。 AB測試流程有以下幾個步驟：一、選取實驗指標二、建立實驗假設三、選取實驗單位四、確定最小提升預期值五、計算最小樣本量六、流量分割七、確定實驗時長八、數據統計九

2024-05-10 13:37:45

數據分析筆試中累加問題是非常常見的考題，今天我們用一個函數來搞定它 sum over(partition by 分組列 order by 排序列 rows between 開始位置 preceding and 結束位置 followin

2023-05-23 13:37:44

假設我有一個看起來像這樣的蜂巢表： ID event order_num ------------------------ A red 2 A blue 1 A ye

2023-04-15 13:37:46

建表語句，如下： DROP TABLE IF EXISTS dim_date_info; CREATE EXTERNAL TABLE dim_date_info( `date_id` STRING COMMENT

2023-04-10 13:38:05

常用spark優化參數強制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 雙寫HDFS開啓： set spark.s

2023-03-30 13:46:27

背景我們知道clickhouse一般都是處理單表的數據，經常需要實現同環比等分析場景，這裏提供兩種方式：首先計算公式：同比、環比分析是一對常見的分析指標，其增長率公式如下：同比增長率 =（本期數 - 同期數) / 同期數環比增長率

2023-03-29 13:38:27

olap Druid :是一個實時處理時序數據的OLAP數據庫，因爲它的索引按照時間分片，查詢的時候也是按照時間線去路由索引。 Kylin核心是Cube，Cube是一種預計算技術，基本思路是預先對數據作多維索引，查詢時只掃描索引而不訪問

2023-03-25 13:38:27

安裝 Superset 和ClickHouse Superset 安裝可以參考我之前的隨筆 ClickHouse 安裝 ClickHouse 的驅動包 pip install clickhouse-sqlalchemy 配置 ClickHo

2023-03-22 13:40:53

解決的問題在WIN10環境下，安裝並正常運行Superset 建議使用Python虛擬環境，減少庫依賴衝突不需要安裝VC啦！注意本教程安裝的版本是1.5 Superset在2022年7月發佈了2.0的大版本更新如pyt

2023-03-18 13:37:51

最近工作使用了一段時間的的數據庫客戶端 DBeaver，發現客戶端顯示時間不正確。時間保存之後發現日期經常自動-1。這期間做了大量測試和分析，一開始以爲時csv格式問題，反覆導入最終查到是因爲時區問題導致的日期-1，解決方式如下。解

2023-03-06 13:37:47

作爲一名數據分析師，平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。對於存儲在數據庫中的數據，自然用SQL提取會比較方便，但有時我們會處理一些文本數據(txt,csv)，這個時候就不太好用SQL了。Python也是分析師常

2023-02-22 13:37:53

知識點基本流程實驗分層問題最小樣本量計算均值類比值類 SRM檢驗指標檢驗比值類

2023-02-17 13:38:07

order by order by會對輸入做全局排序，因此只有一個Reducer(多個Reducer無法保證全局有序)，然而只有一個Reducer，會導致當輸入規模較大時，消耗較長的計算時間，在生產環境中遇到數據量較大的情況，一般無法成功。

2023-02-11 13:38:14

一、“分箱”定義各行各業的打工人，經常會面對一種令人尷尬的質疑：爲什麼你把15-25歸爲一類，10-20不行嗎？13-23不行嗎？以及地產乾飯人經常會被問到的：120-140㎡是主力，那119㎡行不行，118㎡呢？這個時候，通

2023-02-07 13:40:35

自增列的生成 over()裏不帶排序或order by 1是一樣的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.od

2023-01-30 13:40:55