python基礎教程:pandas DataFrame 行列索引及值的獲取的方法

pandas DataFrame是二維的,所以,它既有列索引,又有行索引

上一篇裏只介紹了列索引:

import pandas as pd
 
df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]})
print df
 
# 結果:
  A B
0 0 3
1 1 4
2 2 5

行索引自動生成了 0,1,2

如果要自己指定行索引和列索引,可以使用 index 和 column 參數:

這個數據是5個車站10天內的客流數據:

ridership_df = pd.DataFrame(
  data=[[  0,  0,  2,  5,  0],
     [1478, 3877, 3674, 2328, 2539],
     [1613, 4088, 3991, 6461, 2691],
     [1560, 3392, 3826, 4787, 2613],
     [1608, 4802, 3932, 4477, 2705],
     [1576, 3933, 3909, 4979, 2685],
     [ 95, 229, 255, 496, 201],
     [  2,  0,  1,  27,  0],
     [1438, 3785, 3589, 4174, 2215],
     [1342, 4043, 4009, 4665, 3033]],
  index=['05-01-11', '05-02-11', '05-03-11', '05-04-11', '05-05-11',
      '05-06-11', '05-07-11', '05-08-11', '05-09-11', '05-10-11'],
  columns=['R003', 'R004', 'R005', 'R006', 'R007']
)

data 參數爲一個numpy二維數組, index 參數爲行索引, column 參數爲列索引

生成的數據以表格形式顯示:

 R003 R004 R005 R006 R007
05-01-11   0   0   2   5   0
05-02-11 1478 3877 3674 2328 2539
05-03-11 1613 4088 3991 6461 2691
05-04-11 1560 3392 3826 4787 2613
05-05-11 1608 4802 3932 4477 2705
05-06-11 1576 3933 3909 4979 2685
05-07-11  95  229  255  496  201
05-08-11   2   0   1  27   0
05-09-11 1438 3785 3589 4174 2215
05-10-11 1342 4043 4009 4665 3033

下面說下如何獲取DataFrame裏的值:

1.獲取某一列: 直接 [‘key’]

print(ridership_df['R003'])
 
# 結果:
05-01-11    0
05-02-11  1478
05-03-11  1613
05-04-11  1560
05-05-11  1608
05-06-11  1576
05-07-11   95
05-08-11    2
05-09-11  1438
05-10-11  1342
Name: R003, dtype: int64

2.獲取某一行: .loc[‘key’]

print(ridership_df.loc['05-01-11'])
# 或者
print(ridership_df.iloc[0])
 
 
# 結果:
R003  0
R004  0
R005  2
R006  5
R007  0
Name: 05-01-11, dtype: int64

3.獲取某一行某一列的某個值:

print(ridership_df.loc['05-05-11','R003'])
# 或者
print(ridership_df.iloc[4,0])
 
# 結果:
1608

4.獲取原始的numpy二維數組:

print(ridership_df.values)
 
# 結果:
[[  0  0  2  5  0]
 [1478 3877 3674 2328 2539]
 [1613 4088 3991 6461 2691]
 [1560 3392 3826 4787 2613]
 [1608 4802 3932 4477 2705]
 [1576 3933 3909 4979 2685]
 [ 95 229 255 496 201]
 [  2  0  1  27  0]
 [1438 3785 3589 4174 2215]
 [1342 4043 4009 4665 3033]]

*注意在這過程中,數據格式如果不一致,會發生轉換.

一個綜合栗子:

從 ridership_df 找出第一天裏客流量最多的車站,然後返回這個車站的日平均客流,以及返回所有車站的平均日客流,作爲對比:

def mean_riders_for_max_station(ridership):
  max_index = ridership.iloc[0].argmax()
  mean_for_max = ridership[max_index].mean()
  overall_mean = ridership.values.mean()
  return (overall_mean, mean_for_max)
 
print mean_riders_for_max_station(ridership_df)
 
# 結果:
(2342.6, 3239.9)

最後給大家推薦一個資源很全的python學習聚集地,[點擊進入],這裏有我收集以前學習心得,學習筆記,還有一線企業的工作經驗,且給大定on零基礎到項目實戰的資料,大家也可以在下方,留言,把不懂的提出來,大家一起學習進步

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章