呆瓜半小時入門python數據分析（博主錄製）

（微信二維碼掃一掃報名）

作者介紹

Plotly教程

本次Notebook的目的主要是爲了學習Plotly相關圖表使用，更多官網教程可以查看：

https://www.kaggle.com/kanncaa1/plotly-tutorial-for-beginners

!pip install plotly==4.14.3  -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Requirement already satisfied: plotly==4.14.3 in /opt/conda/lib/python3.8/site-packages (4.14.3)
Requirement already satisfied: six in /opt/conda/lib/python3.8/site-packages (from plotly==4.14.3) (1.15.0)
Requirement already satisfied: retrying>=1.3.3 in /opt/conda/lib/python3.8/site-packages (from plotly==4.14.3) (1.3.3)

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go
import matplotlib.pyplot as plt
from scipy import stats
from collections import Counter
from plotly.offline import iplot

# 查看當前掛載的數據集目錄
!ls /home/kesci/input/vaccinations5919

locations.csv		   vaccinations-by-manufacturer.csv
us_state_vaccinations.csv  vaccinations.csv

數據描述

背景描述

數據說明

國家數據 locations.csv

location：國家（或一個國家內的地區）的名稱。
iso_code：ISO 3166-1 alpha-3 –三個字母的國家/地區代碼。
vaccines：截至目前爲止在該國管理的疫苗清單。
last_observation_date：我們數據中最後一次觀察的日期。
source_name：我們數據收集來源的名稱。
source_website：我們來源的網址。如果在給定頁面上一致地報告數字，則可以是標準URL；否則，它可以是標準URL。否則它將成爲最後一個數據點的源。

疫苗接種數據 vaccinations.csv
全球COVID-19疫苗接種的國家/地區數據

location：國家（或一個國家內的地區）的名稱。
iso_code：ISO 3166-1 alpha-3 –三個字母的國家/地區代碼。
date：觀察日期。
total_vaccinations：給藥的總次數。根據特定的劑量方案（例如，人們接受多次劑量），這被視爲一次劑量，並且可能不等於總接種人數。如果某人接種一劑疫苗，則該指標增加1。如果他們接種第二劑，則該指標再次增加1。
total_vaccinations_per_hundred：total_vaccinations全國總人口中的每100人。
daily_vaccinations_raw：每日總劑量變化。僅連續幾天計算。這是爲數據檢查和透明度提供的原始指標，但是我們強烈建議您daily_vaccinations改用每日疫苗接種率的任何分析方法。
daily_vaccinations：每天服用新劑量（7天平滑）。對於不每天報告數據的國家，我們假設在沒有報告數據的任何時期內每天劑量的變化均等。這將產生完整的每日數字系列，然後將其在7天的滾動窗口中進行平均。在此處可以找到我們如何執行此計算的示例。
daily_vaccinations_per_million：daily_vaccinations該國總人口中的每1百萬人。
people_vaccinated：接受至少一劑疫苗的總人數。如果某人接種了第一劑2劑疫苗，那麼該指標將增加1。如果他們接種了第二劑，則該指標將保持不變。
people_vaccinated_per_hundred：people_vaccinated全國總人口中的每100人。
people_fully_vaccinated：接受疫苗接種方案規定的所有劑量的總人數。如果某人接種了第一劑2劑疫苗，則該指標保持不變。如果他們接受第二劑，則該指標會增加1。
people_fully_vaccinated_per_hundred：people_fully_vaccinated全國總人口中的每100人。

美國疫苗接種數據 us_state_vaccinations.csv
美國COVID-19疫苗接種的數據。數據來自美國疾病控制與預防中心每天更新的數據。

location：州或聯邦實體的名稱。
date：觀察日期。
total_vaccinations：給藥的總次數。根據特定的劑量方案（例如，人們接受多次劑量），這被視爲一次劑量，並且可能不等於總接種人數。如果某人接種一劑疫苗，則該指標增加1。如果他們接種第二劑，則該指標再次增加1。
total_vaccinations_per_hundred：total_vaccinations該州總人口中的每100人。
daily_vaccinations_raw：每日總劑量變化。僅連續幾天計算。這是爲數據檢查和透明度提供的原始指標，但是我們強烈建議您daily_vaccinations改用每日疫苗接種率的任何分析方法。
daily_vaccinations：每天服用新劑量（7天平滑）。對於不每天報告數據的國家，我們假設在沒有報告數據的任何時期內每天劑量的變化均等。這將產生完整的每日數字系列，然後將其在7天的滾動窗口中進行平均。在此處可以找到我們如何執行此計算的示例。
daily_vaccinations_per_million：daily_vaccinations該州總人口中的每100萬人。
people_vaccinated：接受至少一劑疫苗的總人數。如果某人接種了第一劑2劑疫苗，那麼該指標將增加1。如果他們接種了第二劑，則該指標將保持不變。
people_vaccinated_per_hundred：people_vaccinated該州總人口中的每100人。
people_fully_vaccinated：接受疫苗接種方案規定的所有劑量的總人數。如果某人接種了第一劑2劑疫苗，則該指標保持不變。如果他們接受第二劑，則該指標會增加1。
people_fully_vaccinated_per_hundred：people_fully_vaccinated該州總人口中的每100人。
total_distributed：CDC的疫苗跟蹤系統中記錄的COVID-19疫苗劑量累積計數。
total_distributed_per_hundred：該州總人口中，每100人CDC疫苗追蹤系統中記錄的COVID-19疫苗劑量累積計數。
share_doses_used：在CDC疫苗追蹤系統中記錄的已交付疫苗中所接種疫苗的劑量份額。

數據來源

https://ourworldindata.org/covid-vaccinations

問題描述

哪個國家在使用什麼疫苗？
哪個國家的疫苗接種計劃更先進？
每天在哪裏接種疫苗的人更多？但是，以總人口的百分比計算呢？

國家數據-locations

import pandas as pd
import os
data_dir='/home/kesci/input/vaccinations5919'

locations_df=pd.read_csv(os.path.join(data_dir,'locations.csv'))

locations_df

	location	iso_code	vaccines	last_observation_date	source_name	source_website
0	Albania	ALB	Pfizer/BioNTech	2021-02-09	Ministry of Health	https://shendetesia.gov.al/vaksinimi-anticovid...
1	Algeria	DZA	Sputnik V	2021-01-30	Ministry of Health	https://www.aps.dz/regions/116777-blida-covid-...
2	Andorra	AND	Pfizer/BioNTech	2021-02-10	Government of Andorra	https://www.govern.ad/comunicats/item/12415-s-...
3	Anguilla	AIA	Oxford/AstraZeneca	2021-02-13	Ministry of Health	https://www.facebook.com/MinistryofHealthAngui...
4	Argentina	ARG	Sputnik V	2021-02-16	Ministry of Health	http://datos.salud.gob.ar/dataset/vacunas-cont...
...	...	...	...	...	...	...
86	Turks and Caicos Islands	TCA	Pfizer/BioNTech	2021-02-08	Ministry of Health	https://www.facebook.com/tcihealthpromotions/p...
87	United Arab Emirates	ARE	Oxford/AstraZeneca, Pfizer/BioNTech, Sinopharm...	2021-02-16	National Emergency Crisis and Disaster Managem...	http://covid19.ncema.gov.ae/en
88	United Kingdom	GBR	Oxford/AstraZeneca, Pfizer/BioNTech	2021-02-15	Government of the United Kingdom	https://coronavirus.data.gov.uk/details/health...
89	United States	USA	Moderna, Pfizer/BioNTech	2021-02-16	Centers for Disease Control and Prevention	https://covid.cdc.gov/covid-data-tracker/#vacc...
90	Wales	NaN	Oxford/AstraZeneca, Pfizer/BioNTech	2021-02-15	Government of the United Kingdom	https://coronavirus.data.gov.uk/details/health...

91 rows × 6 columns

locations_df.describe()

	location	iso_code	vaccines	last_observation_date	source_name	source_website
count	91	87	91	91	91	91
unique	91	87	18	20	54	87
top	Egypt	ITA	Pfizer/BioNTech	2021-02-16	Ministry of Health	https://coronavirus.data.gov.uk/details/health...
freq	1	1	23	33	31	5

locations_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91 entries, 0 to 90
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   location               91 non-null     object
 1   iso_code               87 non-null     object
 2   vaccines               91 non-null     object
 3   last_observation_date  91 non-null     object
 4   source_name            91 non-null     object
 5   source_website         91 non-null     object
dtypes: object(6)
memory usage: 4.4+ KB

locations_df.shape[0]-locations_df.count()

location                 0
iso_code                 4
vaccines                 0
last_observation_date    0
source_name              0
source_website           0
dtype: int64

世界各國是指世界上各個國家，世界上共有233個國家和地區，其中共有197個國家（主權國家195個，準主權國家2個，這裏只有90個國家，有62%的國家地區尚未有接種數據

數據來源統計

locations_df['source_name'].nunique()

locations_df['source_name'].value_counts()[:10]

Ministry of Health                            31
Government of the United Kingdom               5
National Health Service                        2
Federal Office of Public Health                2
National Health Commission                     2
Public Health Agency of Sweden                 1
Directorate of Health                          1
Centers for Disease Control and Prevention     1
COVID-19 Vaccine Information Platform          1
Government of Iran                             1
Name: source_name, dtype: int64

我們可以看到有54個不同的數據來源,其中來自約佔有30%數據來自Ministry of Health

values = locations_df['source_name'].value_counts(dropna=False)[:10].keys().tolist()
counts = locations_df['source_name'].value_counts(dropna=False)[:10].tolist()
value_dict = dict(zip(values, counts))

import plotly.graph_objects as go
colors = ['gold', 'mediumturquoise', 'darkorange', 'lightgreen']

fig = go.Figure(data=[go.Pie(labels=values,
                             values=counts)])
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=20,
                  marker=dict(colors=colors, line=dict(color='#000000', width=2)))

fig.update_layout(
    title="國家接種數據的前10來源",               # 標題文本 不設置位置的話 默認在左上角，下面有設置位置和顏色的講解
    xaxis_title="X Axis Title",       # X軸標題文本 
    yaxis_title="X Axis Title",       # Y軸標題文本    
    legend_title="Legend Title",      # 圖例標題文本
    font=dict(
        family="Courier New, monospace", # 所有標題文字的字體
        size=18,                         # 所有標題文字的大小
        color="RebeccaPurple"            # 所有標題的顏色      
    ),
    xaxis_title_font_family='Times New Roman', # 額外設置x軸標題的字體
    yaxis_title_font_color = 'red'             # 額外將y軸的字體設置爲紅色  
)
fig.show()

我們也可以統計下接種數據來源分佈的柱狀圖，如下所示：

cols_data = []
total_data = []
df_by_country = []
for country in np.unique(locations_df['location']):
    df_by_country.append(locations_df[locations_df['location']==country])

def bars(data, x, y, title, figsize=(20, 12), rotation=75, size=8, width=None, height=None, colour=None):
    count = pd.DataFrame({x:data[x], y:data[y]}).sort_values(ascending=False, by=y)
    if not colour == None:
        c = count[colour]
    else:
        c = None
    fig = px.bar(count, x=x, y=y, title=title, width=width, height=height, color=c)
    fig.show()

count = Counter(locations_df['source_name'])
{'name':count.keys(), 'value':count.values()}
count = pd.DataFrame({'name':list(count.keys()), 'value':list(count.values())})
count = count[count['value']>1]
bars(count, x='name', y='value', title='sources', width=800, height=600, colour='value')

通過以上數據分析，我們可以看到絕大部分數據來源爲Ministry of Health （衛生部）

疫苗接種數據-vaccinations

疫苗接種數據 vaccinations.csv
全球COVID-19疫苗接種的國家/地區數據

vaccinations_df=pd.read_csv(os.path.join(data_dir,'vaccinations.csv'))

vaccinations_df.head()

	location	iso_code	date	total_vaccinations	people_vaccinated	people_fully_vaccinated	daily_vaccinations_raw	daily_vaccinations	total_vaccinations_per_hundred	people_vaccinated_per_hundred	people_fully_vaccinated_per_hundred	daily_vaccinations_per_million
0	Albania	ALB	2021-01-10	0.0	0.0	NaN	NaN	NaN	0.00	0.00	NaN	NaN
1	Albania	ALB	2021-01-11	NaN	NaN	NaN	NaN	64.0	NaN	NaN	NaN	22.0
2	Albania	ALB	2021-01-12	128.0	128.0	NaN	NaN	64.0	0.00	0.00	NaN	22.0
3	Albania	ALB	2021-01-13	188.0	188.0	NaN	60.0	63.0	0.01	0.01	NaN	22.0
4	Albania	ALB	2021-01-14	266.0	266.0	NaN	78.0	66.0	0.01	0.01	NaN	23.0

cols_data = []
total_data = []
df_by_country = []
for country in np.unique(vaccinations_df['location']):
    df_by_country.append(vaccinations_df[vaccinations_df['location']==country])

def last_item(col):
    total_vaccs = []
    for country in df_by_country:
        total_vaccs.append(np.array(country[col])[-1])
    data = dict(zip(np.unique(vaccinations_df['location']), total_vaccs))
    return data

data = last_item('total_vaccinations')
data = pd.DataFrame({'countries':list(data.keys()), 'total_vaccinations':list(data.values())})
data = data[data['total_vaccinations']>130000]
bars(data, 'countries', 'total_vaccinations', '每個國家疫苗接種人數', height=700, colour='total_vaccinations')

從上圖可以看到，我們美國和中國以及歐盟地區的疫苗總接種量最大，排在其次的是英國英格蘭印度等國家

疫苗閉環接種人數

data = last_item('people_fully_vaccinated')
data = pd.DataFrame({'countries':list(data.keys()), 'people_fully_vaccinated':list(data.values())})
data = data[data['people_fully_vaccinated']>50000]
bars(data, 'countries', 'people_fully_vaccinated', 'people_fully_vaccinated per country', 
     width=800, height=650, colour='people_fully_vaccinated')

新冠滅活疫苗接種部位在上臂三角肌，免疫程序爲2針，2針之間間隔14-28天。

納尼，爲什麼沒有我們中國的數據，估摸着是因爲這些數據來源沒有收納中國的數據？因爲我們看到最高的閉環接種地區爲“World”，我們可以理解爲China的閉環接種數量爲：
$W o r l d - O t h e r \approx 10 M$

美國、中國和英國的疫苗接種總數

之後，我們將仔細研究一些領先國家美國，中國和英國的總疫苗接種變化趨勢

for country in ['United States', 'China', 'United Kingdom']:
    df_temp = vaccinations_df[vaccinations_df['location']==country]
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=df_temp['date'], y=df_temp['total_vaccinations'],
                             mode='markers+lines'))
    
    fig.update_layout(title_text=country)
    fig.update_xaxes(title='Date')
    fig.update_yaxes(title='Total vaccinations')
    fig.show()

以上三張圖片爲美國中國英國的疫苗接種總人數的變化趨勢，從圖片我們可以看出：

美國，中國，英國三國新冠疫苗接種總人數從2020年12月13日左右開始逐步增長，並且趨勢大致相同
其中美國和英國的數據記錄相對完整，中國疫苗接種數據存在部分日期缺失，這個也可能由於該數據主要來自外國有關吧
截止到2021年2月14日左右，美國和中國的疫苗接種總數分別在50M和40M，英國相對較少在14M左右

全球疫苗接種進度

def nulls(name, threshold, length):
    countries = np.array([])
    usable = 0
    for i in df_by_country:
        i = i.reset_index(drop=True)
        col = i[name]
        num_null = col.isnull().sum()
        col_len = len(col.index)
        usability = round(num_null/col_len*100, 2)<threshold
        if usability and col_len>length:
            usable += 1
            countries = np.append(countries, i['location'][0])
    return countries, name

def scatter(countries, col, threshold):
    i = 0
    fig = go.Figure()
    for country in countries:
        if list(vaccinations_df[vaccinations_df['location']==country][col])[-1]<threshold:
            if i % 2 == 0:
                i += 1
                continue
        i += 1
        df_temp = vaccinations_df[vaccinations_df['location']==country]
        trace = go.Scatter(x=df_temp['date'], y=df_temp[col], 
                           name=country,
                           mode='markers+lines')
        fig.add_trace(trace)
    fig.update_layout(legend_title=dict(text='Countries', font=dict(family="sans-serif",
                                         size=18)))
    fig.update_xaxes(title='date')
    fig.update_yaxes(title=col)
    fig.show()

for i in [['total_vaccinations', 10, 15, 1000000],
          ['total_vaccinations_per_hundred', 10, 15, 11],
          ['daily_vaccinations', 2.5, 20, 200000],
          ['daily_vaccinations_per_million', 2.05, 20, 0],
          ['people_fully_vaccinated', 60, 20, 500000],
          ['people_fully_vaccinated_per_hundred', 60, 20, 4]]:
    countries, title = nulls(i[0], i[1], i[2])
    scatter(countries, title, i[3])

以上爲6張圖片，分別從不同角度反映了從2020年12月至2021年2月的全球疫苗接種進度變化：

total_vaccinations:代表給藥的總次數，意思是如果某人接種一劑疫苗，則該指標增加1。如果他們接種第二劑，則該指標再次增加1，這個數量可以反映出一些國家的疫苗儲備量以及總體醫療水平，第一張圖片中，我們可以居於高位的曲線爲World，但是沒有美國，中國，英國等強國的數據，那麼可以理解爲“World”代表三個國家的疫苗接種接種總人數，是遠遠高於其他國家水平的.
people_vaccinated_per_hundred這個代表某個國家全國總人口中的每100人中有多少人接受了疫苗接種，從第二張圖片我們可以看出來，以色列（Israel），直布羅陀（Gibraltar），阿拉伯聯合酋長（united arab）這三個國家每100接種人數覆蓋率最高，後來瞭解下以色列作爲中東地區唯一一個自由民主制國家和發達國家，其經濟、科技等總體實力較強，競爭力居世界先列。這個指標比較客觀地拋出人口基數因素的疫苗接種指標。
daily_vaccinations：每天疫苗接種人數，可以看出隨着新冠疫苗的順利研發與不同國家輸送，全世界的每日疫苗接種人數正在逐步上漲，第三張圖片也可以反映出美國和中國的日疫苗接種人數要大於其他國家
daily_vaccinations_per_million：某個國家全國總人口中的每1百萬人中疫苗接種人數，從第四張圖片可以看出來是以色列，蘇格蘭，威爾士等經濟發展水平，人口數量較少的國家每日疫苗接種效率比較高，是不是因爲人口少，資源配置均衡，容易管理？

還有兩張圖片，留下啦給你解讀了，奧利給~

全球新冠肺炎疫苗接種數據分析

作者介紹

Plotly教程

數據描述

背景描述

數據說明

數據來源

問題描述

國家數據-locations

數據來源統計

疫苗接種數據-vaccinations

疫苗閉環接種人數

美國、中國和英國的疫苗接種總數

全球疫苗接種進度

相關性係數

druid數據源 xml配置

全國行業信用公共服務平臺（企業信用評價查詢）

金融風控評分卡模型的WOE分箱一定要單調嗎？

python實戰因子分析和主成分分析 SVD奇異值分解的基本原理和運用

python實戰因子分析factor analysis

全球新冠肺炎疫苗接種數據分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結