簡介
pandas排序函數。可以(1)按索引排序(2)按某些列排序(3)排位次,新生成一列位次列。
sort_index()按索引排序
語法: DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’, sort_remaining=True)
用途: 按照索引排序,如果是多級索引,level可以指定按那一級排序;axis指定排行索引還是列索引;na_position指定把空值放在最前邊還是最後邊。
參數說明:
- axis: {0 or ‘index’, 1 or ‘columns’}, default 0
- level: int or level name or list of ints or list of level names。可以是等級名稱(列表),等級位置(列表)
- ascending: bool, default True。升序或降序
- inplace: bool, default False。是否原地操作數據對象
- kind: {‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。排序方法
- na_position: {‘first’, ‘last’}, default ‘last’。把空置放在前邊還是後邊
- sort_remaining: bool, default True。如果是多級索引,只指定了其中某幾級進行排序,可以指定剩餘的幾級索引是否也排序。
sort_values()按列排序
語法: DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)
用途: 按照某列或某幾列排序。
參數說明:
- by: str or list of str。排序列
- axis: {0 or ‘index’, 1 or ‘columns’}, default 0。縱向排序or橫向排序
- inplace: bool, default False
- kind: {‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。排序算法
- na_position: {‘first’, ‘last’}, default ‘last’。把NaN放在前邊還是後邊
rank()排位次
語法: DataFrame.rank(self, axis=0, method=‘average’, numeric_only=None, na_option=‘keep’, ascending=True, pct=False)
用途: 對一列元素進行排序,並生成一列位次列。method可以指定遇到相同元素的排序方式;
參數說明:
- axis: {0 or ‘index’, 1 or ‘columns’}, default 0
- method: {‘average’, ‘min’, ‘max’, ‘first’, ‘dense’}, default ‘average’。遇到相同元素如何排序
- average:都取取位次的均值,1、4、4、5位次爲1、2.5、2.5、3
- min:都取最小位次,1、4、4、5位次爲1、2、2、4
- max:都取最大位次,1、4、4、5位次爲1、3、3、4
- first:按照元素在數組中出現的順序取位次
- dense:緊密排序,1、4、4、5位次爲1、2、2、3
- numeric_only: bool, optional。是否只對數值列排序
- na_option: {‘keep’, ‘top’, ‘bottom’}, default ‘keep’。如何處理空值
- keep:不參與排序,位次列保持NaN
- top:當成相同元素排在前面
- bottom:當成相同元素排在後面
- ascending: bool, default True。正序或倒序
- pct: bool, default False。是否以百分比的形式展示位次列
df = pd.DataFrame(data={'Animal':['cat', 'penguin', 'dog', 'spider', 'snake'],
'Number_legs': [4, 2, 4, 8, np.nan]})
df['dense_rank'] = df['Number_legs'].rank(method='dense')
df['first_rank'] = df['Number_legs'].rank(method='first')
df['min_rank'] = df['Number_legs'].rank(method='min')
df['max_rank'] = df['Number_legs'].rank(method='max')
df['average_rank'] = df['Number_legs'].rank(method='average')
df['first_rank_pct'] = df['Number_legs'].rank(method='first', pct=True)