Python數據分析案例-藥店銷售數據分析

最近學習了Python數據分析的一些基礎知識，就找了一個藥品數據分析的小項目來練一下手。

數據分析的目的：

本篇文章中，假設以朝陽醫院2018年銷售數據爲例，目的是瞭解朝陽醫院在2018年裏的銷售情況，通過對朝陽區醫院的藥品銷售數據的分析，瞭解朝陽醫院的患者的月均消費次數，月均消費金額、客單價以及消費趨勢、需求量前幾位的藥品等。

數據分析基本過程包括：獲取數據、數據清洗、構建模型、數據可視化以及消費趨勢分析。

數據準備

數據是存在Excel中的，可以使用pandas的Excel文件讀取函數將數據讀取到內存中，這裏需要注意的是文件名和Excel中的sheet頁的名字。讀取完數據後可以對數據進行預覽和查看一些基本信息。

獲取數據：朝陽醫院2018年銷售數據.xlsx(非真實數據) 提取碼: 6xm2

導入原始數據

import numpy as np
from pandas import Series,DataFrame
import pandas as pd
#導入數據
file_name = '朝陽醫院2018年銷售數據.xlsx'
# 使用ExcelFile()時需要傳入目標excel文件所在路徑及文件名稱
xls = pd.ExcelFile(file_name)
# 使用parse()可以根據傳入的sheet名稱來提取對應的表格信息
dataDF = xls.parse('Sheet1',dtype='object')
# 輸出前五行數據
dataDF.head()

#　使用sheet_names來查看當前表格中包含的所有sheet名稱（按順序）
print(xls.sheet_names[0])

查看數據基本信息：

#查看基本信息
#查看數據幾行幾列
print(dataDF.shape)
#查看索引
print(dataDF.index)
#查看每一列的列表頭內容
print(dataDF.columns)
#查看每一列數據統計數目
print(dataDF.count())

數據清洗

數據清洗過程包括：選擇子集、列名重命名、缺失數據處理、數據類型轉換、數據排序及異常值處理

（1）選擇子集

在我們獲取到的數據中，可能數據量非常龐大，並不是每一列都有價值都需要分析，這時候就需要從整個數據中選取合適的子集進行分析，這樣能從數據中獲取最大價值。在本次案例中不需要選取子集，暫時可以忽略這一步。

（2）列重命名

在數據分析過程中，有些列名和數據容易混淆或產生歧義，不利於數據分析，這時候需要把列名換成容易理解的名稱，可以採用rename函數實現：

#列重命名
dataDF.rename(columns={'購藥時間':'銷售時間'},inplace=True)
dataDF.head()

（3）缺失值處理

獲取的數據中很有可能存在缺失值，通過查看基本信息可以推測“購藥時間”和“社保卡號”這兩列存在缺失值，如果不處理這些缺失值會干擾後面的數據分析結果。

缺失數據常用的處理方式爲刪除含有缺失數據的記錄或者利用算法去補全缺失數據。

在本次案例中爲求方便，直接使用dropna函數刪除缺失數據，具體如下：

#缺失值處理
print('刪除缺失值前:', dataDF.shape)

# 使用info查看數據信息,
print(dataDF.info())
#刪除缺失值
dataDF = dataDF.dropna(subset=['銷售時間','社保卡號'], how='any')
print('\n刪除缺失值後',dataDF.shape)
print(dataDF.info())

（4）數據類型轉換

在導入數據時爲了防止導入不進來，會強制所有數據都是object類型，但實際數據分析過程中“銷售數量”，“應收金額”，“實收金額”，這些列需要浮點型（float）數據，“銷售時間”需要改成時間格式，因此需要對數據類型進行轉換。

可以使用astype()函數轉爲浮點型數據：

#數據類型轉換
dataDF['銷售數量'] = dataDF['銷售數量'].astype('float')
dataDF['應收金額'] = dataDF['應收金額'].astype('float')
dataDF['實收金額'] = dataDF['實收金額'].astype('float')
print(dataDF.dtypes)

在“銷售時間”這一列數據中存在星期這樣的數據，但在數據分析過程中不需要用到，因此要把銷售時間列中日期和星期使用split函數進行分割，分割後的時間，返回的是Series數據類型：

'''
定義函數：分割銷售日期，提取銷售日期
輸入：timeColSer 銷售時間這一列，Series數據類型，例‘2018-01-01 星期五’
輸出：分割後的時間，返回Series數據類型，例‘2018-01-01’
'''
def splitSaletime(timeColSer):
    timeList=[]
    
    for value in timeColSer:
        dateStr=value.split(' ')[0] #用空格進行分割
        timeList.append(dateStr)

    timeSer=pd.Series(timeList)    #將列表轉行爲一維數據Series類型
    return timeSer

#獲取“銷售時間”這一列
timeSer = dataDF.loc[:,'銷售時間']

#對字符串進行分割，提取銷售日期
dateSer = splitSaletime(timeSer)

#修改銷售時間這一列的值
dataDF.loc[:,'銷售時間'] = dateSer
dataDF.head()

'''
數據類型轉換:字符串轉換爲日期

把切割後的日期轉爲時間格式，方便後面的數據統計:
'''
#errors='coerce' 如果原始數據不符合日期的格式，轉換後的值爲空值NaT
dataDF.loc[:,'銷售時間']=pd.to_datetime(dataDF.loc[:,'銷售時間'],format='%Y-%m-%d', errors='coerce')

print(dataDF.dtypes)

dataDF.isnull().sum()

'''
轉換日期過程中不符合日期格式的數值會被轉換爲空值
刪除含有NaT的空行
'''
dataDF = dataDF.dropna(subset=['銷售時間','社保卡號'],how='any')
datasDF = dataDF.reset_index(drop = True)
dataDF.info()

（5）數據排序

此時時間是沒有按順序排列的，所以還是需要排序一下，排序之後索引會被打亂，所以也需要重置一下索引。

其中by:表示按哪一列進行排序，ascending=True表示升序排列，ascending=False表示降序排列

#數據排序
dataDF = dataDF.sort_values(by='銷售時間', ascending=True)
dataDF = dataDF.reset_index(drop=True)
dataDF.head()

（6）異常值處理

先查看數據的描述統計信息

#查看描述統計信息
dataDF.describe()

通過描述統計信息可以看到，“銷售數量”、“應收金額”、“實收金額”這三列數據的最小值出現了負數，這明顯不符合常理，數據中存在異常值的干擾，因此要對數據進一步處理，以排除異常值的影響：

#將'銷售數量'這一列小於0的數據排除掉
pop = dataDF.loc[:,'銷售數量'] > 0
dataDF = dataDF.loc[pop,:]
dataDF.describe()

構建模型及數據可視化

數據清洗完成後，需要利用數據構建模型（就是計算相應的業務指標），並用可視化的方式呈現結果。

（1）業務指標1:月均消費次數

月均消費次數 = 總消費次數 / 月份數（同一天內，同一個人所有消費算作一次消費）

#計算總消費次數
#刪除重複數據
kpil_Df = dataDF.drop_duplicates(subset=['銷售時間','社保卡號'])
totalI = kpil_Df.shape[0]
print('總消費次數=',totalI)

#計算月份數
#按銷售時間升序排序
kpil_Df = kpil_Df.sort_values(by='銷售時間', ascending=True)
#重命名行名
kpil_Df = kpil_Df.reset_index(drop=True)
#獲取時間範圍
startTime = kpil_Df.loc[0,'銷售時間']
endTime = kpil_Df.loc[totalI-1,'銷售時間']
#計算月份
#天數
daysI = (endTime-startTime).days
mounthI = daysI//30
print('月份數=',mounthI)

#月平均消費次數
kpil_I = totalI//mounthI
print('業務指標1：月均消費次數=', kpil_I)

（2）業務指標2:月均消費金額

月均消費金額 = 總消費金額 / 月份數

#消費總金額
totalMoneyF = dataDF.loc[:,'實收金額'].sum()
mounthMoney = totalMoneyF // mounthI
print('業務指標2：月均消費金額=', mounthMoney)

（3）客單價

客單價 = 總消費金額 / 總消費次數

#客單價
pct = totalMoneyF / totalI
print('業務指標3：客單價=', pct)

（4）消費趨勢

a. 導入python可視化相關的包

b. 分析每天的消費金額

import matplotlib.pyplot as plt
import matplotlib
#畫圖時用於顯示中文字符
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['SimHei'] # SimHei是黑體的意思
#在操作之前先複製一份
#mpl.rcParams['font.sans-serif'] = ['Songti'] # SimHei是黑體的意思
#font = FontProperties(fname='/Library/Fonts/Songti.ttc') #設置字體
#在操作之前先複製一份數據，防止影響清洗後的數據
groupDF = dataDF

#將'銷售時間'設置爲index
groupDF.index = groupDF['銷售時間']
print(groupDF.head())
gb = groupDF.groupby(groupDF.index)
print(gb)
dayDF = gb.sum()
print(dayDF)
#畫圖
plt.plot(dayDF['實收金額'])
plt.title('按天消費金額')
plt.xlabel('時間')
plt.ylabel('實收金額')
plt.show()

從結果可以看出，每天消費總額差異較大，除了個別天出現比較大筆的消費，大部分人消費情況維持在1000-2000元以內。

c. 分析每月的消費金額

接下來，我銷售時間先聚合再按月分組進行分析：

#將銷售時間聚合按月分組
gb = groupDF.groupby(groupDF.index.month)
print(gb)
monthDF = gb.sum()
print(monthDF)

plt.plot(monthDF['實收金額'])
plt.title('按月消費金額')
plt.xlabel('時間')
plt.ylabel('實收金額')
plt.show()

結果顯示，7月消費金額最少，這是因爲7月份的數據不完整，所以不具參考價值。

1月、4月、5月和6月的月消費金額差異不大.

2月和3月的消費金額迅速降低，這可能是2月和3月處於春節期間，大部分人都回家過年的原因。

d. 分析藥品銷售情況

對“商品名稱”和“銷售數量”這兩列數據進行聚合爲Series形式，方便後面統計，並按降序排序：

#聚合統計各種藥品數量
medicine = groupDF[['商品名稱','銷售數量']]
bk = medicine.groupby('商品名稱')[['銷售數量']]
re_medicine = bk.sum()

#對銷售藥品數量按將序排序
re_medicine = re_medicine.sort_values(by='銷售數量', ascending=False)
re_medicine.head()

截取銷售數量最多的前十種藥品，並用條形圖展示結果：

top_medicine = re_medicine.iloc[:10,:]
top_medicine

# 數據可視化，用條形圖展示前十的藥品
top_medicine.plot(kind = 'bar')
plt.title('銷售前十的藥品')
plt.xlabel('藥品')
plt.ylabel('數量')
plt.show()

結論：對於銷售量排在前幾位的藥品，醫院應該時刻關注，保證藥品不會短缺而影響患者。得到銷售數量最多的前十種藥品的信息，這些信息也會有助於加強醫院對藥房的管理。

e. 每天的消費金額分佈情況

每天的消費金額分佈情況：一橫軸爲時間，縱軸爲實收金額畫散點圖。

# 每天消售金額 -- 散點圖
plt.scatter(dataDF['銷售時間'],dataDF['實收金額'])
plt.title('每天銷售金額')
plt.xlabel('時間')
plt.ylabel('實收金額')
plt.show()

結論：從散點圖可以看出，每天消費金額在500以下的佔絕大多數，個別天存在消費金額很大的情況。

參考文章：https://www.jianshu.com/p/1becc1e5dbea

Python數據分析案例-藥店銷售數據分析

數據分析的目的：

數據準備

導入原始數據

查看數據基本信息：

數據清洗

（1）選擇子集

（2）列重命名

（3）缺失值處理

（4）數據類型轉換

（5）數據排序

（6）異常值處理

構建模型及數據可視化

（1）業務指標1:月均消費次數

（2）業務指標2:月均消費金額

（3）客單價

（4）消費趨勢

a. 導入python可視化相關的包

b. 分析每天的消費金額

c. 分析每月的消費金額

d. 分析藥品銷售情況

e. 每天的消費金額分佈情況

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

ffmpeg 百度雲盤

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

Matplotlib 中的 Legend 圖例、Annotation 標註、Tick 能見度

Matplotlib 線形圖

Matplotlib 設置座標軸

pymysql操作mysql--連接mysql

隨機圖片壁紙API接口刷新網頁換背景接口

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結