Pandas 總結
開課吧 人工智能學院 python與人工智能 第二模塊的老師,介紹了數據分析。老師在課上一直強調,授人以魚不如授人以漁。
在數據分析中常用一個工具包pandas
安裝與導入Pandas
安裝Pandas
:
pip install pandas
安裝好後, 可以檢查版本
import pandas
pandas.__version__
導入模塊
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
Pandas
對象簡介
Series對象
- 是特殊的
Numpy
數組Numpy
的數組隱含是整數索引, 而Series
的索引不僅可以是整數, 還可以任何hash-type的類型.
data = pd.Series([0.1,0.2, 0.3, 0.4],
index=['a', 'b', 'c', 'd'])
data
- 也可以看成特殊的字典
p_dict = {"數學": 88, "物理": 99,
"英語": 123, "歷史": 83}
p = pd.Series(p_dict)
DataFrame
對象
- 可以看成特殊的二維
Numpy array
score_dict = {"數學": 88, "物理": 99,
"英語": 123, "歷史": 83}
score = pd.Series(score_dict)
numbs_dict = {"數學": 100, "物理": 99,
"英語": 200, "歷史": 300}
nums = pd.Series(numbs_dict)
data = pd.DataFrame({"score": score, "nums":nums})
data
Pandas 導入數據
read_csv
導入csv數據
# 讀取數據 關於酒的質量
red_df_ = pd.read_csv('winequality-red.csv')
white_df_ = pd.read_csv('winequality-white.csv')
# 第一行是表頭 、 第二行是數據
# 同時注意一下到表頭?
red_df_.head()
read_csv(****.csv, sep=';')
加入參數sep=';'
, 文件就以分號分開數據
# CSV逗號分割文件,該文件是通過分號分割開,加入參數 sep=';'就以分號分開數據
red_df = pd.read_csv('winequality-red.csv', sep=';')
red_df.head()
# .head() 一般展示前五行
# .head(n=10) 就可以展示前10行了
- 展示數據的信息
- 查看錶的數據信息
.info()
- 查看錶的統計信息
.describe()
- 瀏覽數據,統計數據每列有多少離散值
.nunique()
- 查看數據的表頭
.columns
- 查看數據多少行多少列
.shape
- 中位數
.median
、均值.mean
、 方差.std
- 查看錶的數據信息
- 添加數據 與 合併數據
# 加一列數據 表面是紅酒
red_df['color'] = ['red']*red_df.shape[0]
red_df.head()
white_df['color'] = [1]*white_df.shape[0]
white_df.head()
# 拼接數據
df = pd.concat([red_df, white_df], axis="index")
- 通過圖展示數據分佈
for col_name in df.columns:
if col_name != 'color':
plt.hist(df[col_name])
plt.title(col_name+' histogram')
plt.show()
講師在課上強調,這些內容只是入門了,咱們至少需要學會閱讀文檔,講師就邊對着文檔邊講參數。😊