原创 AB實驗相關流程
本篇文章介紹的是一個完整AB測試流程應該怎麼走。 AB測試流程有以下幾個步驟: 一、選取實驗指標 二、建立實驗假設 三、選取實驗單位 四、確定最小提升預期值 五、計算最小樣本量 六、流量分割 七、確定實驗時長 八、數據統計 九
原创 hivesql 累加計算
數據分析筆試中累加問題是非常常見的考題,今天我們用一個函數來搞定它 sum over(partition by 分組列 order by 排序列 rows between 開始位置 preceding and 結束位置 followin
原创 hivesql 實現collect_list內排序
假設我有一個看起來像這樣的蜂巢表: ID event order_num ------------------------ A red 2 A blue 1 A ye
原创 2023年日曆維度數據
建表語句,如下: DROP TABLE IF EXISTS dim_date_info; CREATE EXTERNAL TABLE dim_date_info( `date_id` STRING COMMENT
原创 常用spark優化參數
常用spark優化參數 強制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 雙寫HDFS開啓: set spark.s
原创 clickhouse 實現同環比
背景我們知道clickhouse一般都是處理單表的數據,經常需要實現同環比等分析場景,這裏提供兩種方式:首先計算公式: 同比、環比分析是一對常見的分析指標,其增長率公式如下: 同比增長率 =(本期數 - 同期數) / 同期數 環比增長率
原创 presto 原理介紹
olap Druid :是一個實時處理時序數據的OLAP數據庫,因爲它的索引按照時間分片,查詢的時候也是按照時間線去路由索引。 Kylin核心是Cube,Cube是一種預計算技術,基本思路是預先對數據作多維索引,查詢時只掃描索引而不訪問
原创 安裝 Superset 和ClickHouse
安裝 Superset 和ClickHouse Superset 安裝可以參考我之前的隨筆 ClickHouse 安裝 ClickHouse 的驅動包 pip install clickhouse-sqlalchemy 配置 ClickHo
原创 windows部署superset
解決的問題 在WIN10環境下,安裝並正常運行Superset 建議使用Python虛擬環境,減少庫依賴衝突 不需要安裝VC啦! 注意 本教程安裝的版本是1.5 Superset在2022年7月發佈了2.0的大版本更新 如pyt
原创 DBeaver 導入csv到myql發現的時間問題
最近工作使用了一段時間的的數據庫客戶端 DBeaver,發現客戶端顯示時間不正確。時間保存之後發現日期經常自動-1。 這期間做了大量測試和分析,一開始以爲時csv格式問題,反覆導入最終查到是因爲時區問題導致的日期-1,解決方式如下。 解
原创 pandas vs sql 基本操作對比
作爲一名數據分析師,平常用的最多的工具是SQL(包括MySQL和Hive SQL等)。對於存儲在數據庫中的數據,自然用SQL提取會比較方便,但有時我們會處理一些文本數據(txt,csv),這個時候就不太好用SQL了。Python也是分析師常
原创 AB實驗基本流程
知識點 基本流程 實驗分層問題 最小樣本量計算 均值類 比值類 SRM檢驗 指標檢驗 比值類
原创 hive 的order by ,sort by,distribute by,cluster by
order by order by會對輸入做全局排序,因此只有一個Reducer(多個Reducer無法保證全局有序),然而只有一個Reducer,會導致當輸入規模較大時,消耗較長的計算時間,在生產環境中遇到數據量較大的情況,一般無法成功。
原创 K-means分箱
一、“分箱”定義 各行各業的打工人,經常會面對一種令人尷尬的質疑:爲什麼你把15-25歸爲一類,10-20不行嗎?13-23不行嗎? 以及地產乾飯人經常會被問到的:120-140㎡是主力,那119㎡行不行,118㎡呢?這個時候,通
原创 hive自增ID
自增列的生成 over()裏不帶排序或order by 1是一樣的效果 select row_number() over() as id,a1.id,relationwords,relation_words from ods.od