原创 學習筆記(01):程序員的數學:概率統計-看似相近卻有本質區別

立即學習:https://edu.csdn.net/course/play/26113/323359?utm_source=blogtoedu隨機變量X,Y在Z取特定值的條件下獨立: P(X,Y|Z) = P(X|Z)P(Y|Z)

原创 SQL進階之關聯子查詢練習

SQL進階之關聯子查詢一、關聯子查詢簡介二、關聯子查詢實操1.CreateTable2.Sample 一、關聯子查詢簡介 通過關聯表內部條件從而達到查詢效果 二、關聯子查詢實操 注:版本使用:mysql5.1.73 以下代碼均可直

原创 SQL進階之HAVING練習

SQL進階之HAVING用法一、HAVING子句簡介二、HAVING實操1.CreateTable2.Sample 一、HAVING子句簡介 HAVING是在sql的運行完後做的一個判斷常跟聚合寫法後面 二、HAVING實操 注:

原创 數據分析師工作流程及其注意點

數據分析師工作流程及其注意點一、目的二、工作流程及其注意點1.獲取需求單2.構思需求實現(這是重點)3.和產品溝通需求實現,以及告知需求實現所需要花費的時間4.着手大幹一場5.校檢數據的正確性以及健壯性6.交付需求,等待產品校驗7

原创 SQL進階之CASE表達式練習

1.case表達式簡單瞭解 分爲簡單case表達式和搜索case表達式 -- 簡單case表達式 case sex when '1' then '男' when '2' then '女' else '其他' end --搜索

原创 SQL進階及工作中常用SQL

1.工作中常用sql排行 ①group by(用來聚合也時常用來去重注意用groupby select 後要跟聚合字段) ②where(SQL計算之前進行過濾,對性能是極大的提高,代碼測試階段where條件下儘量跟分區) ③hav

原创 機器學習_相親數據決策樹實戰

需求:根據訓練集預測是否要見相親對象 機器學習處理問題流程: 1.準備數據,導入數據集 2.數據探索性分析,EDA分析 3.特徵工程(數據處理、特徵的預處理) 4.數據切分:訓練集+測試集,訓練集佔比例高的 5.模型訓練(訓練集+

原创 HiveSql優化

Hive SQL的各種優化方法基本 都和數據傾斜密切相關。   Hive的優化分爲join相關的優化和join無關的優化,從項目的實際來說,join相關的優化佔了Hive優化的大部分內容,而join相關的優化又分爲mapjoin可