一、索引
Series和Datafram索引的原理一樣,我們以Dataframe的索引爲例
1.1 列索引:df[‘列名’] (Series不存在列索引)
df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
index = ['one','two','three'],
columns = ['a','b','c','d'])
# 按照列名選擇列,只選擇一列輸出Series,選擇多列輸出Dataframe
data1 = df['a']
data2 = df[['a','c']]
print(data1,type(data1))
print(data2,type(data2))
df[]默認選擇列,也可以選擇行,但不推薦,行索引用.loc與.iloc
1.2 行索引:
- df.loc[]:按index的名字選擇行
- df.iloc[]:按照整數位置(從軸的0到length-1)選擇行,類似list的索引,其順序就是dataframe的整數位置,從0開始計
# 按照index選擇行,只選擇一行輸出Series,選擇多行輸出Dataframe
data3 = df.loc['one']
data4 = df.loc[['one','two']]
print(data3,type(data3))
print(data4,type(data4))
1.3 bool型索引
# 布爾型索引
# 多用於索引行
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])
print(df)
print('------')
b1 = df < 20
print(b1,type(b1))
print(df[b1]) # 也可以書寫爲 df[df < 20]
print('------')
# 不做索引則會對數據每個值進行判斷
# 索引結果保留 所有數據:True返回原數據,False返回值爲NaN
b2 = df['a'] > 50
print(b2,type(b2))
print(df[b2]) # 也可以書寫爲 df[df['a'] > 50]
print('------')
# 單列做判斷
# 索引結果保留 單列判斷爲True的行數據,包括其他列
b3 = df[['a','b']] > 50
print(b3,type(b3))
print(df[b3]) # 也可以書寫爲 df[df[['a','b']] > 50]
print('------')
# 多列做判斷
# 索引結果保留 所有數據:True返回原數據,False返回值爲NaN
# 注意這裏報錯的話,更新一下pandas → conda update pandas
b4 = df.loc[['one','three']] < 50
print(b4,type(b4))
print(df[b4]) # 也可以書寫爲 df[df.loc[['one','three']] < 50]
print('------')
# 多行做判斷
# 索引結果保留 所有數據:True返回原數據,False返回值爲NaN
1.4 多重索引:比如同時索引行和列
# 先選擇列再選擇行 —— 相當於對於一個數據,先篩選字段,再選擇數據量
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])
print(df)
print('------')
print(df['a'].loc[['one','three']]) # 選擇a列的one,three行
print(df[['b','c','d']].iloc[::2]) # 選擇b,c,d列的one,three行
print(df[df['a'] < 50].iloc[:2]) # 選擇滿足判斷索引的前兩行數據
二、切片
# 行切片,注意!!!這裏是包含末端的
# 如果是iloc[0:2],則是不包含末端的
data5 = df.loc['one':'three']
# 列不能切片
打賞
碼字不易,如果對您有幫助,就打賞一下吧O(∩_∩)O