原创 用戶分層-RFM

基本簡介 根據美國數據庫營銷研究所Arthur Hughes的研究,客戶數據庫中有3個神奇的要素,這3個要素構成了數據分析最好的指標: 最近一次消費 (Recency) 消費頻率 (Frequency) 消費金額 (Monetar

原创 matplotlib入門-盒圖

盒圖主要是看一個數據的分佈情況,也適用於EDA異常值的查找 Q1是四分之一分爲數 Q3是四分之三分爲數 median中位數 IQR=Q3−Q1Q3-Q1Q3−Q1 基本圖形 fig = plt.figure(figsize=

原创 matplotlib細節設置

座標軸 plt.figure(figsize=(8,3)) #原始圖像 plt.subplot(131) fig = plt.gca() plt.plot(x,y) #去掉軸標籤和刻度 plt.subplot(132) fig

原创 matplotlib入門-基本設置

matplotlib是一個Python 2D繪圖庫,是一個簡單而且很實用的繪圖工具。 在notebook上使用時需要加上一行命令 %matplotlib inline 基本設置 我們先繪製一個最簡單的圖形 plt.plot([

原创 隨機森林、極端隨機森林以及深度森林代碼

之前介紹了隨機森林、極端隨機森林以及深度森林的原理,本次介紹一下相關的代碼 本次實驗全部使用糖尿病數據集 數據導入 import pandas as pd train = pd.read_csv("/Users/admin/Des

原创 數據分箱python代碼深入解讀

之前介紹了分箱的理論: https://blog.csdn.net/Andy_shenzl/article/details/88965169 https://blog.csdn.net/Andy_shenzl/article/de

原创 python-list刪除

在 list中刪除某一元素有三種方法 可以歸爲兩類: 根據位置刪除 根據元素刪除 位置刪除 用到的函數有: del,pop() 1、del list=['A','B','C','D','E'] # 刪除前兩個元素 del lis

原创 Hive SQL的幾個時間函數

datediff計算時間差 命令格式: datediff(datetime1, datetime2, datepart) 用途: 計算兩個時間的差值,並轉換成指定的單位,如:秒。 參數說明: ● datetime1 , date

原创 協同過濾算法-簡單的python實現demo

概述 協同過濾(collaborative filtering)是推薦算法裏面最經典也是最常用的。 該算法通過分析用戶的興趣,在用戶羣中找到指定用戶的相似用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶的喜好程度預測。

原创 ODPS—UDF簡單使用

UDF全稱爲User Defined Function,即用戶自定義函數。 編寫一個簡單函數 首先登錄DataWorks控制檯, 在左側導航欄,單擊工作空間列表, 單擊相應工作空間後的進入數據開發。 新建Python資源。 右鍵單

原创 ROW_NUMBER函數的用法

row_number() over()分組排序功能: 在使用 row_number() over()函數時候,over()裏頭的分組以及排序的執行晚於 where 、group by、 order by 的執行。 語法格式:ro

原创 RNN學習筆記3-時間序列預測

用LSTM預測時間序列,需要對原始序列做一些簡單的處理 首先做一個窗口,這個窗口來確定每次需要多少數據進行訓練,即xtx_txt​的長度,標籤的長度也需要確定,本例中我們取的窗口都是一樣的,如下: def model_data(s

原创 深入理解DAU

如果我們在回答一個問題: 公司最重要的指標是什麼 你日常關注最多的三個指標是什麼 …… 類似這樣的問題,我相信DAU肯定會出現在你的答案裏面。 那麼什麼是DAU呢? DAU:【Daily Active User-日活躍用戶數量】也

原创 LAG()和LEAD() 分析函數

Lag和Lead分析函數可以在同一次查詢中取出同一字段的前N行的數據(Lag)和後N行的數據(Lead)作爲獨立的列。 在實際應用當中,若要用到取今天和昨天的某字段差值時,Lag和Lead函數的應用就顯得尤爲重要。當然,這種操作可

原创 關聯規則python實現-mlxtend

之前介紹了關聯規則的原理:傳送門 發現一個專門進行關聯規則分析的python庫:mlxtend 下面進行簡單的演示 簡單數據實現 我們自己簡單構造幾個數據熟悉下 retail_shopping_basket = {'ID':[1,