[Python3] Pandas v1.0 —— (三) 層級索引

文章目錄

[ Pandas version: 1.0.1 ]

五、層級索引

對於存儲多維數據的需求，數據索引超過一兩個鍵，Pandas提供了Panel和Panel4D對象解決三維數據和四維數據。（本文不涉及Panel）

而實踐中，更直觀的形式是通過層級索引（hierarchical indexing, 或多級索引 multi-indexing）配合多個有不同等級的一級索引一起使用，可以將高維數組轉換成類似一維Series和二維DataFrame對象的形式。

（一）多級索引Series

1. 低效方法：用Python元組表示索引

import numpy as np
import pandas as pd
# 用一維Series對象表示二維數據

# 1. 笨方法：用Python元組表示索引
index = [('California', 2000), ('California', 2010), ('New York', 2000),
         ('New York', 2010), ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956, 18976457, 19378102, 20851820, 25145561]
pop = pd.Series(populations, index=index)
pop
# (California, 2000)    33871648
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# (Texas, 2010)         25145561
# dtype: int64

# 通過元組構成的多級索引在Series上取值或切片查詢
pop[('California', 2010):('Texas', 2000)]
# (California, 2010)    37253956
# (New York, 2000)      18976457
# (New York, 2010)      19378102
# (Texas, 2000)         20851820
# dtype: int64

# 選擇2000年的數據（效率低）
pop[[i for i in pop.index if i[1] == 2010]]
# (California, 2010)    37253956
# (New York, 2010)      19378102
# (Texas, 2010)         25145561
# dtype: int64

2. 高效方法：Pandas多級索引

Pandas的MultiIndex類型：

levels屬性表示索引的等級，可以將索引作爲每個數據點的不同標籤
reindex方法將索引重置

# Pandas的MultiIndex類型
# 用元組創建一個多級索引
index = pd.MultiIndex.from_tuples(index)
index
# MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
#            codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

# 重置索引
pop = pop.reindex(index)
pop
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

# 切片查詢：可直接用第二個索引獲取2010年數據，獲取單索引數組
pop[:, 2010]
# California    37253956
# New York      19378102
# Texas         25145561
# dtype: int64

3. 高維數據的多維索引

unstack()方法將一個多集索引的Series轉化爲普通索引的DataFrame。反之，stack()方法將DataFrame轉化爲Series。

如果可以用含多級索引的一維Series數據表示二維數據，就可以用Series或DataFrame表示三維甚至更高維度的數據。

多級索引每增加一級，就表示數據增加一維，利用這個特點可以輕鬆表示任意維度的數據。

pop_df = pop.unstack()
pop_df
#                 2000      2010
# California  33871648  37253956
# New York    18976457  19378102
# Texas       20851820  25145561

pop_df.stack()
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

# 帶有MultiIndex的對象增加一列
pop_df = pd.DataFrame({'total': pop, 'under18': [
                      9267089, 9284094, 4687374, 4318033, 5906301, 6879014]})
pop_df
#                     total  under18
# California 2000  33871648  9267089
#            2010  37253956  9284094
# New York   2000  18976457  4687374
#            2010  19378102  4318033
# Texas      2000  20851820  5906301
#            2010  25145561  6879014

# 通用函數和其他功能也同樣適用於層級索引
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()
#                 2000      2010
# California  0.273594  0.249211
# New York    0.247010  0.222831
# Texas       0.283251  0.273568

（二）多級索引的創建方法

爲Series或DataFrame創建多級索引最直接的辦法就是將index參數設置爲至少二維的索引數組。

如果將元組作爲鍵的字典傳遞給Pandas，Pandas也會默認轉換爲MultiIndex。

df = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [
                  1, 2, 1, 2]], columns=['data1', 'data2'])
df
#         data1     data2
# a 1  0.290238  0.067935
#   2  0.264533  0.155016
# b 1  0.731323  0.055852
#   2  0.589025  0.637130

data = {('California', 2000): 33871648, ('California', 2010): 37253956, ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561, ('New York', 2000): 18976457, ('New York', 2010): 19378102}
pd.Series(data)
# California  2000    33871648
#             2010    37253956
# Texas       2000    20851820
#             2010    25145561
# New York    2000    18976457
#             2010    19378102
# dtype: int64

1. 顯式地創建多級索引

pd.MultiIndex中的類方法靈活構建多級索引：

通過一個有不同等級的若干簡單數組組成的列表來構建 MultiIndex pd.MultiIndex.from_arrays()
可以通過包含多個索引值的元組構成的列表創建 MultiIndex pd.MultiIndex.from_tuples()
可以用兩個索引的笛卡爾積創建 MultiIndex pd.MultiIndex.from_product()
可以直接提供levels（包含每個等級的索引值列表的列表）和codes（包含每個索引值標籤列表的列表）創建 MultiIndex pd.MultiIndex(levels= ,codes= )

在創建Series或DataFrame時，可以將這些對象作爲index參數，或者通過reindex方法更新Series或DataFrame的索引。

pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex.from_product([['a', 'b'], [1, 2]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

pd.MultiIndex(levels=[['a', 'b'], [1, 2]], codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
# MultiIndex(levels=[['a', 'b'], [1, 2]],
#            codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

2. 多級索引的等級名稱

在處理複雜數據時，爲等級設置名稱是管理多個索引值的好方法。

在MultiIndex構造器中通過names參數設置等級名稱，或在創建之後通過索引的names屬性修改名稱。

pop.index.names = ['state', 'year']
pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

3. 多級列索引

# 多級行列索引
index = pd.MultiIndex.from_product(
    [[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product(
    [['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])
# 模擬數據
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37
# 創建DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4

health_data['Guido']
# type          HR  Temp
# year visit
# 2013 1      29.0  36.3
#      2      46.0  37.5
# 2014 1      29.0  37.6
#      2      26.0  37.4

（三）多級索引的取值和切片

1. Series多級索引

pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

(1) 通過對多個級別索引值獲取單個元素

pop['California', 2000] 	#輸出：33871648

MultiIndex 支持局部取值（partial indexing)，即只取索引的某一個層級。假如只取最高級的層級，獲得的結果是一個新的Series，未被選中的低層索引值會被保留。

pop['California']
# year
# 2000    33871648
# 2010    37253956
# dtype: int64

局部切片：要求 MultiIndex 是按順序排列的。如果索引已經排序那麼可以用較低層級的索引取值，第一層級的索引可以用空切片。

pop.loc['California':'New York']
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# dtype: int64

pop[:, 2000]
# state
# California    33871648
# New York      18976457
# Texas         20851820
# dtype: int64

(2) 通過布爾掩碼選擇數據

pop[pop > 22000000]
# state       year
# California  2000    33871648
#             2010    37253956
# Texas       2010    25145561
# dtype: int64

(3) 通過花哨索引選擇數據

pop[['California', 'Texas']]
# state       year
# California  2000    33871648
#             2010    37253956
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

2. DataFrame多級索引

DataFrame多級索引的用法與Series類似。由於DataFrame的基本索引是列索引，因此Series中多級索引的用法到了DataFrame中就應用在列上了。

health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4

# 獲取Guido的心率數據
health_data['Guido', 'HR']
# year  visit
# 2013  1        29.0
#       2        46.0
# 2014  1        29.0
#       2        26.0
# Name: (Guido, HR), dtype: float64

# 索引器適用
health_data.iloc[:2, :2]
# subject      Bob
# type          HR  Temp
# year visit
# 2013 1      47.0  39.1
#      2      30.0  36.4

# 索引元組
health_data.loc[:, ('Bob', 'HR')]
# year  visit
# 2013  1        47.0
#       2        30.0
# 2014  1        27.0
#       2        45.0
# Name: (Bob, HR), dtype: float64

# 索引元組切片報錯
# health_data.loc[(:, 1), (:, 'HR')]
#   File "<ipython-input-246-fb34fa30ac09>", line 1
#     health_data.loc[(:, 1), (:, 'HR')]
#                      ^
# SyntaxError: invalid syntax

雖然索引器將多維數據當做二維數據處理，但在loc和iloc中可以傳遞多個層級的索引元組（這種索引元組用法不夠方便，如果在元組中使用切片會報錯）

可以結合使用Pandas的IndexSlice對象進行切片。

# IndexSlice對象
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]
# subject      Bob Guido   Sue
# type          HR    HR    HR
# year visit
# 2013 1      47.0  29.0  49.0
# 2014 1      27.0  29.0  26.0

（四）多級索引行列轉換

1. 有序的索引和無序的索引

如果 MultiIndex 不是有序的索引，那麼大多數切片操作都會失敗。

局部切片和其他相似操作都要求 MultiIndex 的各級索引是有序的（按字典順序 A-Z）。

Pandas提供許多便捷操作完成排序，如sort_index()和sortlevel()方法。

index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data
# char  int
# a     1      0.339133
#       2      0.754435
# c     1      0.913014
#       2      0.985422
# b     1      0.183062
#       2      0.618703
# dtype: float64

# 局部切片報錯
# data['a': 'b']
# UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

data = data.sort_index()
# char  int
# a     1      0.339133
#       2      0.754435
# b     1      0.183062
#       2      0.618703
# c     1      0.913014
#       2      0.985422
# dtype: float64

data['a': 'b']
# char  int
# a     1      0.339133
#       2      0.754435
# b     1      0.183062
#       2      0.618703
# dtype: float64

2. 索引stack與unstack

將一個多級索引數據集轉換成簡單的二維形式，可以通過level參數設置轉換的索引層級。

level=0，即最高級索引堆疊成列索引。
默認level=-1，即最低級索引堆疊成列索引。

DataFrame.unstack(self, level=-1, fill_value=None)

Parameters:
	level: 	int, str, or list of these, default -1 (last level)
			Level(s) of index to unstack, can pass level name.

	fill_value: int, str or dict
				Replace NaN with this value if the unstack produces missing values.

pop
# state       year
# California  2000    33871648
#             2010    37253956
# New York    2000    18976457
#             2010    19378102
# Texas       2000    20851820
#             2010    25145561
# dtype: int64

pop.unstack(level=0)
# state  California  New York     Texas
# year
# 2000     33871648  18976457  20851820
# 2010     37253956  19378102  25145561

pop.unstack(level=1)
# year            2000      2010
# state
# California  33871648  37253956
# New York    18976457  19378102
# Texas       20851820  25145561

# unstack()是stack()的逆操作，同時使用讓數據保持不變
pop.unstack().stack()

3. 索引的設置與重置

層級數據維度轉換的另一種方法是行列標籤轉換，可以通過reset_index方法實現。

Series中使用reset_index方法，生成一個列標籤中包含行索引標籤的DataFrame

pop_flat = pop.reset_index(name='population')
pop_flat
#         state  year  population
# 0  California  2000    33871648
# 1  California  2010    37253956
# 2    New York  2000    18976457
# 3    New York  2010    19378102
# 4       Texas  2000    20851820
# 5       Texas  2010    25145561

在解決實際問題時，如果能將類似這樣的原始數據的列直接轉換成 MultiIndex，通常將大有裨益。
通過DataFrame的set_index方法實現，返回結果會是一個帶多級索引的DataFrame

pop_flat.set_index(['state', 'year'])
#                  population
# state      year
# California 2000    33871648
#            2010    37253956
# New York   2000    18976457
#            2010    19378102
# Texas      2000    20851820
#            2010    25145561

（五）多級索引的數據累計方法

對於層級索引數據，可以設置參數level和axis實現對數據子集的累計操作。

health_data
# subject      Bob       Guido         Sue
# type          HR  Temp    HR  Temp    HR  Temp
# year visit
# 2013 1      47.0  39.1  29.0  36.3  49.0  38.6
#      2      30.0  36.4  46.0  37.5  22.0  36.2
# 2014 1      27.0  37.0  29.0  37.6  26.0  36.5
#      2      45.0  36.4  26.0  37.4  47.0  36.4
     
# 計算每一年各項指標的平均值
data_mean = health_data.mean(level='year')
data_mean
# subject   Bob        Guido         Sue
# type       HR   Temp    HR  Temp    HR   Temp
# year
# 2013     38.5  37.75  37.5  36.9  35.5  37.40
# 2014     36.0  36.70  27.5  37.5  36.5  36.45

# 對列索引進行累計操作
data_mean.mean(axis=1, level='type')
# type         HR       Temp
# year
# 2013  37.166667  37.350000
# 2014  33.333333  36.883333

總結自《Python數據科學手冊》

[Python3] Pandas v1.0 —— (三) 層級索引

文章目錄

五、層級索引

（一）多級索引Series

1. 低效方法：用Python元組表示索引

2. 高效方法：Pandas多級索引

3. 高維數據的多維索引

（二）多級索引的創建方法

1. 顯式地創建多級索引

2. 多級索引的等級名稱

3. 多級列索引

（三）多級索引的取值和切片

1. Series多級索引

2. DataFrame多級索引

（四）多級索引行列轉換

1. 有序的索引和無序的索引

2. 索引stack與unstack

3. 索引的設置與重置

（五）多級索引的數據累計方法

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

[Python3] Pandas v1.0 —— (一) 對象、數據取值與運算

[Python3] Pandas v1.0 —— (七) 向量化字符串操作

[Python3] Pandas v1.0 —— (三) 層級索引

[Python3] NumPy基礎

[Python3] Matplotlib —— (一) 入門基礎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結