原创 泰坦尼克號數據集的下載

這是一個常用的數據,給大家個鏈接,可以去該鏈接下載數據集http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

原创 配置hadoop環境(三)

不知道爲什麼我的vim突然不能用了,我先裝一下vim(切換到root用戶下安裝) yum -y install vim* 出現complete表示完成安裝! 接下來配置hadoop環境,每一個步驟都很關鍵,不能錯了!!! (1)

原创 模擬某打車公司的業務題:分析打車的業務問題

某打車公司業務題:分析打車業務問題 公司A是的app(類似滴滴、uber)爲用戶提供打車服務。現有四張表(模擬數據),分別是driver(司機數據)表,online_time(在線時長數據)表,order_info(訂單數據)表,

原创 用SQL進行用戶行爲分析

用戶消費行爲分析(回購率和復購率)   相關業務需求如下:   1-統計不同月份的下單人數   2-統計用戶三月份的回購率和復購率   3-統計男女的消費頻次是否有差異   4-統計多次消費的用戶,第一次和最後一次消費時間的間隔

原创 利用Python進行用戶消費行爲分析(CDNOW_master)

用戶消費行爲的分析報告   想必大家對於CD用戶消費者行爲的分析已經見得多了,這裏就不再一一敘述,這裏主要是作爲我的一個小練習,來提高自己處理業務的能力。   項目需求如下: (1)用戶消費趨勢分析 每月的消費總金額 每月的消費

原创 ndarray的創建

使用np.array()創建ndarray 使用np.array()由python list創建,參數列表爲:[1,2,3,4,5]。 注意:numpy默認ndarray的所有元素的類型是相同的,如果傳遞進來的列表中包含不同的類型

原创 ndarray的操作

import numpy as np import matplotlib.pyplot as plt # 1.索引 一維與列表完全一致 多維也與列表完全一致 可以根據索引修改數據 n1 = np.random.randint

原创 利用Python進行電商網站用戶行爲分析

電商網站用戶行爲分析 項目需求 1.用戶整體購物情況怎樣? 統計數據集中總的用戶數,商品數,商品類別數,用戶行爲數。 核心指標如PV,UV,跳出率,復購率,留存率等分別是多少? 2.用戶的購物行爲情況。 3.統計出每天各種行爲

原创 Pandas數據處理之數據聚合

import pandas as pd import numpy as np from pandas import DataFrame, Series '''5.數據聚合 數據聚合是數據處理的最後一步,通常是要使每一個數組生成

原创 利用Excel計算DAU、商品轉化率和ARPU值等

  這個小練習是根據某公衆號發佈的內容,自己再進行整理的,覺得非常不錯,所以拿來練練手。   Excel記錄了某款電商產品在1月1日發佈,1個月後的新增及留存數據、商品銷售數據、商品詳情頁瀏覽數據、及商品信息表。現在業務部門需要你

原创 Pandas的多層索引

import numpy as np from pandas import DataFrame, Series import matplotlib.pyplot as plt import pandas as pd '''1.

原创 使用Python的DataFrame處理丟失數據

import numpy as np from pandas import DataFrame, Series import pandas as pd # 處理丟失數據 有兩種丟失數據: ''' 1)None 是Python

原创 numpy中的ndarray聚合操作

import matplotlib.pyplot as plt import numpy as np import pandas as pd # 1.求和np.sum n = np.random.randint(0, 150,

原创 ndarray的排序

import numpy as np # def Sort()代碼越短越好 # 普通的排序 n1 = np.array([2, 4, 5, 7, 1]) def sort(nd): for i in range(nd.

原创 Pandas數據處理之高級聚合

import numpy as np from pandas import DataFrame, Series import pandas as pd ''' 假設菜市場張大媽在賣菜,有以下屬性: 菜品(item):蘿蔔,白菜,