文章目錄
[ Pandas version: 1.0.1 ]
五、層級索引
對於存儲多維數據的需求,數據索引超過一兩個鍵,Pandas提供了Panel和Panel4D對象解決三維數據和四維數據。(本文不涉及Panel)
而實踐中,更直觀的形式是通過層級索引(hierarchical indexing, 或多級索引 multi-indexing)配合多個有不同等級的一級索引一起使用,可以將高維數組轉換成類似一維Series和二維DataFrame對象的形式。
(一)多級索引Series
1. 低效方法:用Python元組表示索引
import numpy as np
import pandas as pd
# 用一維Series對象表示二維數據
# 1. 笨方法:用Python元組表示索引
index = [('California', 2000), ('California', 2010), ('New York', 2000),
('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop
# (California, 2000) 33871648
# (California, 2010) 37253956
# (New York, 2000) 18976457
# (New York, 2010) 19378102
# (Texas, 2000) 20851820
# (Texas, 2010) 25145561
# dtype: int64
# 通過元組構成的多級索引在Series上取值或切片查詢
pop[('California', 2010):('Texas', 2000)]
# (California, 2010) 37253956
# (New York, 2000) 18976457
# (New York, 2010) 19378102
# (Texas, 2000) 20851820
# dtype: int64
# 選擇2000年的數據(效率低)
pop[[i for i in pop.index if i[1] == 2010]]
# (California, 2010) 37253956
# (New York, 2010) 19378102
# (Texas, 2010) 25145561
# dtype: int64
2. 高效方法:Pandas多級索引
Pandas的MultiIndex
類型:
levels
屬性表示索引的等級,可以將索引作爲每個數據點的不同標籤reindex
方法將索引重置
# Pandas的MultiIndex類型
# 用元組創建一個多級索引
index = pd.MultiIndex.from_tuples(index)
index
# MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
# codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])
# 重置索引
pop = pop.reindex(index)
pop
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
# 切片查詢:可直接用第二個索引獲取2010年數據,獲取單索引數組
pop[:, 2010]
# California 37253956
# New York 19378102
# Texas 25145561
# dtype: int64
3. 高維數據的多維索引
unstack()
方法將一個多集索引的Series轉化爲普通索引的DataFrame。反之,stack()
方法將DataFrame轉化爲Series。
如果可以用含多級索引的一維Series數據表示二維數據,就可以用Series或DataFrame表示三維甚至更高維度的數據。
多級索引每增加一級,就表示數據增加一維,利用這個特點可以輕鬆表示任意維度的數據。
pop_df = pop.unstack()
pop_df
# 2000 2010
# California 33871648 37253956
# New York 18976457 19378102
# Texas 20851820 25145561
pop_df.stack()
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
# 帶有MultiIndex的對象增加一列
pop_df = pd.DataFrame({'total': pop, 'under18': [
9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df
# total under18
# California 2000 33871648 9267089
# 2010 37253956 9284094
# New York 2000 18976457 4687374
# 2010 19378102 4318033
# Texas 2000 20851820 5906301
# 2010 25145561 6879014
# 通用函數和其他功能也同樣適用於層級索引
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()
# 2000 2010
# California 0.273594 0.249211
# New York 0.247010 0.222831
# Texas 0.283251 0.273568
(二)多級索引的創建方法
爲Series或DataFrame創建多級索引最直接的辦法就是將index
參數設置爲至少二維的索引數組。
如果將元組作爲鍵的字典傳遞給Pandas,Pandas也會默認轉換爲MultiIndex
。
df = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [
1, 2, 1, 2]], columns=['data1', 'data2'])
df
# data1 data2
# a 1 0.290238 0.067935
# 2 0.264533 0.155016
# b 1 0.731323 0.055852
# 2 0.589025 0.637130
data = {('California', 2000): 33871648, ('California', 2010): 37253956, ('Texas', 2000): 20851820,
('Texas', 2010): 25145561, ('New York', 2000): 18976457, ('New York', 2010): 19378102}
pd.Series(data)
# California 2000 33871648
# 2010 37253956
# Texas 2000 20851820
# 2010 25145561
# New York 2000 18976457
# 2010 19378102
# dtype: int64
1. 顯式地創建多級索引
pd.MultiIndex中的類方法靈活構建多級索引:
- 通過一個有不同等級的若干簡單數組組成的列表來構建 MultiIndex
pd.MultiIndex.from_arrays()
- 可以通過包含多個索引值的元組構成的列表創建 MultiIndex
pd.MultiIndex.from_tuples()
- 可以用兩個索引的笛卡爾積創建 MultiIndex
pd.MultiIndex.from_product()
- 可以直接提供
levels
(包含每個等級的索引值列表的列表)和codes
(包含每個索引值標籤列表的列表)創建 MultiIndexpd.MultiIndex(levels= ,codes= )
在創建Series或DataFrame時,可以將這些對象作爲index
參數,或者通過reindex
方法更新Series或DataFrame的索引。
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
# codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
# codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
# codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
pd.MultiIndex(levels=[['a', 'b'], [1, 2]], codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
# codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
2. 多級索引的等級名稱
在處理複雜數據時,爲等級設置名稱是管理多個索引值的好方法。
在MultiIndex構造器中通過names
參數設置等級名稱,或在創建之後通過索引的names
屬性修改名稱。
pop.index.names = ['state', 'year']
pop
# state year
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
3. 多級列索引
# 多級行列索引
index = pd.MultiIndex.from_product(
[[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product(
[['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])
# 模擬數據
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
# 創建DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data
# subject Bob Guido Sue
# type HR Temp HR Temp HR Temp
# year visit
# 2013 1 47.0 39.1 29.0 36.3 49.0 38.6
# 2 30.0 36.4 46.0 37.5 22.0 36.2
# 2014 1 27.0 37.0 29.0 37.6 26.0 36.5
# 2 45.0 36.4 26.0 37.4 47.0 36.4
health_data['Guido']
# type HR Temp
# year visit
# 2013 1 29.0 36.3
# 2 46.0 37.5
# 2014 1 29.0 37.6
# 2 26.0 37.4
(三)多級索引的取值和切片
1. Series多級索引
pop
# state year
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
(1) 通過對多個級別索引值獲取單個元素
pop['California', 2000] #輸出:33871648
MultiIndex 支持局部取值(partial indexing),即只取索引的某一個層級。假如只取最高級的層級,獲得的結果是一個新的Series,未被選中的低層索引值會被保留。
pop['California']
# year
# 2000 33871648
# 2010 37253956
# dtype: int64
局部切片:要求 MultiIndex 是按順序排列的。如果索引已經排序那麼可以用較低層級的索引取值,第一層級的索引可以用空切片。
pop.loc['California':'New York']
# state year
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# dtype: int64
pop[:, 2000]
# state
# California 33871648
# New York 18976457
# Texas 20851820
# dtype: int64
(2) 通過布爾掩碼選擇數據
pop[pop > 22000000]
# state year
# California 2000 33871648
# 2010 37253956
# Texas 2010 25145561
# dtype: int64
(3) 通過花哨索引選擇數據
pop[['California', 'Texas']]
# state year
# California 2000 33871648
# 2010 37253956
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
2. DataFrame多級索引
DataFrame多級索引的用法與Series類似。由於DataFrame的基本索引是列索引,因此Series中多級索引的用法到了DataFrame中就應用在列上了。
health_data
# subject Bob Guido Sue
# type HR Temp HR Temp HR Temp
# year visit
# 2013 1 47.0 39.1 29.0 36.3 49.0 38.6
# 2 30.0 36.4 46.0 37.5 22.0 36.2
# 2014 1 27.0 37.0 29.0 37.6 26.0 36.5
# 2 45.0 36.4 26.0 37.4 47.0 36.4
# 獲取Guido的心率數據
health_data['Guido', 'HR']
# year visit
# 2013 1 29.0
# 2 46.0
# 2014 1 29.0
# 2 26.0
# Name: (Guido, HR), dtype: float64
# 索引器適用
health_data.iloc[:2, :2]
# subject Bob
# type HR Temp
# year visit
# 2013 1 47.0 39.1
# 2 30.0 36.4
# 索引元組
health_data.loc[:, ('Bob', 'HR')]
# year visit
# 2013 1 47.0
# 2 30.0
# 2014 1 27.0
# 2 45.0
# Name: (Bob, HR), dtype: float64
# 索引元組切片報錯
# health_data.loc[(:, 1), (:, 'HR')]
# File "<ipython-input-246-fb34fa30ac09>", line 1
# health_data.loc[(:, 1), (:, 'HR')]
# ^
# SyntaxError: invalid syntax
雖然索引器將多維數據當做二維數據處理,但在loc
和iloc
中可以傳遞多個層級的索引元組(這種索引元組用法不夠方便,如果在元組中使用切片會報錯)
可以結合使用Pandas的IndexSlice
對象進行切片。
# IndexSlice對象
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]
# subject Bob Guido Sue
# type HR HR HR
# year visit
# 2013 1 47.0 29.0 49.0
# 2014 1 27.0 29.0 26.0
(四)多級索引行列轉換
1. 有序的索引和無序的索引
如果 MultiIndex 不是有序的索引,那麼大多數切片操作都會失敗。
局部切片和其他相似操作都要求 MultiIndex 的各級索引是有序的(按字典順序 A-Z)。
Pandas提供許多便捷操作完成排序,如sort_index()
和sortlevel()
方法。
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data
# char int
# a 1 0.339133
# 2 0.754435
# c 1 0.913014
# 2 0.985422
# b 1 0.183062
# 2 0.618703
# dtype: float64
# 局部切片報錯
# data['a': 'b']
# UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'
data = data.sort_index()
# char int
# a 1 0.339133
# 2 0.754435
# b 1 0.183062
# 2 0.618703
# c 1 0.913014
# 2 0.985422
# dtype: float64
data['a': 'b']
# char int
# a 1 0.339133
# 2 0.754435
# b 1 0.183062
# 2 0.618703
# dtype: float64
2. 索引stack與unstack
將一個多級索引數據集轉換成簡單的二維形式,可以通過level
參數設置轉換的索引層級。
level=0
,即最高級索引堆疊成列索引。- 默認
level=-1
,即最低級索引堆疊成列索引。
DataFrame.unstack(self, level=-1, fill_value=None)
Parameters:
level: int, str, or list of these, default -1 (last level)
Level(s) of index to unstack, can pass level name.
fill_value: int, str or dict
Replace NaN with this value if the unstack produces missing values.
pop
# state year
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
# dtype: int64
pop.unstack(level=0)
# state California New York Texas
# year
# 2000 33871648 18976457 20851820
# 2010 37253956 19378102 25145561
pop.unstack(level=1)
# year 2000 2010
# state
# California 33871648 37253956
# New York 18976457 19378102
# Texas 20851820 25145561
# unstack()是stack()的逆操作,同時使用讓數據保持不變
pop.unstack().stack()
3. 索引的設置與重置
層級數據維度轉換的另一種方法是行列標籤轉換,可以通過reset_index
方法實現。
- Series中使用
reset_index
方法,生成一個列標籤中包含行索引標籤的DataFrame
pop_flat = pop.reset_index(name='population')
pop_flat
# state year population
# 0 California 2000 33871648
# 1 California 2010 37253956
# 2 New York 2000 18976457
# 3 New York 2010 19378102
# 4 Texas 2000 20851820
# 5 Texas 2010 25145561
-
在解決實際問題時,如果能將類似這樣的原始數據的列直接轉換成 MultiIndex,通常將大有裨益。
-
通過DataFrame的
set_index
方法實現,返回結果會是一個帶多級索引的DataFrame
pop_flat.set_index(['state', 'year'])
# population
# state year
# California 2000 33871648
# 2010 37253956
# New York 2000 18976457
# 2010 19378102
# Texas 2000 20851820
# 2010 25145561
(五)多級索引的數據累計方法
對於層級索引數據,可以設置參數level
和axis
實現對數據子集的累計操作。
health_data
# subject Bob Guido Sue
# type HR Temp HR Temp HR Temp
# year visit
# 2013 1 47.0 39.1 29.0 36.3 49.0 38.6
# 2 30.0 36.4 46.0 37.5 22.0 36.2
# 2014 1 27.0 37.0 29.0 37.6 26.0 36.5
# 2 45.0 36.4 26.0 37.4 47.0 36.4
# 計算每一年各項指標的平均值
data_mean = health_data.mean(level='year')
data_mean
# subject Bob Guido Sue
# type HR Temp HR Temp HR Temp
# year
# 2013 38.5 37.75 37.5 36.9 35.5 37.40
# 2014 36.0 36.70 27.5 37.5 36.5 36.45
# 對列索引進行累計操作
data_mean.mean(axis=1, level='type')
# type HR Temp
# year
# 2013 37.166667 37.350000
# 2014 33.333333 36.883333
Pandas 相關閱讀:
[Python3] Pandas v1.0 —— (一) 對象、數據取值與運算
[Python3] Pandas v1.0 —— (二) 處理缺失值
[Python3] Pandas v1.0 —— (三) 層級索引 【本文】
[Python3] Pandas v1.0 —— (四) 合併數據集
[Python3] Pandas v1.0 —— (五) 累計與分組
[Python3] Pandas v1.0 —— (六) 數據透視表
[Python3] Pandas v1.0 —— (七) 向量化字符串操作
[Python3] Pandas v1.0 —— (八) 處理時間序列
[Python3] Pandas v1.0 —— (九) 高性能Pandas: eval()與query()
總結自《Python數據科學手冊》