pd.cut()

原創

2019-10-26 10:53

`pandas.cut`用來把一組數據分割成離散的區間。比如有一組年齡數據，可以使用`pandas.cut`將年齡數據分割成不同的年齡段並打上標籤。

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise') #0.23.4

x：被切分的類數組（array-like）數據，必須是1維的（不能用DataFrame）；

bins：bins是被切割後的區間（或者叫“桶”、“箱”、“面元”），有3中形式：一個int型的標量、標量序列（數組）或者pandas.IntervalIndex 。一個int型的標量. 當bins爲一個int型的標量時，代表將x平分成bins份。x的範圍在每側擴展0.1%，以包括x的最大值和最小值。標量序列. 標量序列定義了被分割後每一個bin的區間邊緣，此時x沒有擴 .pandas.IntervalIndex
定義要使用的精確區間。

right：bool型參數，默認爲True，表示是否包含區間右部。比如如果bins=[1,2,3]，right=True，則區間爲(1,2]，(2,3]；right=False，則區間爲(1,2),(2,3)。

labels：給分割後的bins打標籤，比如把年齡x分割成年齡段bins後，可以給年齡段打上諸如青年、中年的標籤。labels的長度必須和劃分後的區間長度相等，比如bins=[1,2,3]，劃分後有2個區間(1,2]，(2,3]，則labels的長度必須爲2。如果指定labels=False，則返回x中的數據在第幾個bin中（從0開始）。

retbins：bool型的參數，表示是否將分割後的bins返回，當bins爲一個int型的標量時比較有用，這樣可以得到劃分後的區間，默認爲False。

precision：保留區間小數點的位數，默認爲3.

include_lowest：bool型的參數，表示區間的左邊是開還是閉的，默認爲false，也就是不包含區間左部（閉）duplicates：是否允許重複區間。有兩種選擇：raise：不允許，drop：允許。

返回值

out：一個pandas.Categorical, Series或者ndarray類型的值，代表分區後x中的每個值在哪個bin（區間）中，如果指定了labels，則返回對應的label。
bins：分隔後的區間，當指定retbins爲True時返回。

例子

這裏拿給年齡分組當做例子。

import numpy as np
import pandas as pd

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年齡數據

將ages平分成5個區間

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) 
pd.cut(ages, 5)

輸出：

[(0.901, 20.8], (0.901, 20.8], (0.901, 20.8], (20.8, 40.6], (20.8, 40.6], ..., (0.901, 20.8], (0.901, 20.8], (20.8, 40.6], (20.8, 40.6], (20.8, 40.6]]
Length: 16
Categories (5, interval[float64]): [(0.901, 20.8] < (20.8, 40.6] < (40.6, 60.4] < (60.4, 80.2] < (80.2, 100.0]]

可以看到ages被平分成5個區間，且區間兩邊都有擴展以包含最大值和最小值。

將ages平分成5個區間並指定labels

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年齡數據
pd.cut(ages, 5, labels=[u"嬰兒",u"青年",u"中年",u"壯年",u"老年"])

輸出：

[嬰兒, 嬰兒, 嬰兒, 青年, 青年, ..., 嬰兒, 嬰兒, 青年, 青年, 青年]
Length: 16
Categories (5, object): [嬰兒 < 青年 < 中年 < 壯年 < 老年]

給ages指定區間進行分割

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年齡數據
pd.cut(ages, [0,5,20,30,50,100], labels=[u"嬰兒",u"青年",u"中年",u"壯年",u"老年"])

輸出：

[嬰兒, 嬰兒, 青年, 壯年, 壯年, ..., 青年, 青年, 中年, 中年, 壯年]
Length: 16
Categories (5, object): [嬰兒 < 青年 < 中年 < 壯年 < 老年]

這裏不再平分ages，而是將ages分爲了5個區間(0, 5],(5, 20],(20, 30],(30,50],(50,100].

返回分割後的bins

令retbins=True即可

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年齡數據
pd.cut(ages, [0,5,20,30,50,100], labels=[u"嬰兒",u"青年",u"中年",u"壯年",u"老年"],retbins=True)

輸出：

([嬰兒, 嬰兒, 青年, 壯年, 壯年, ..., 青年, 青年, 中年, 中年, 壯年]
 Length: 16
 Categories (5, object): [嬰兒 < 青年 < 中年 < 壯年 < 老年],
 array([  0,   5,  20,  30,  50, 100]))

只返回x中的數據在哪個bin

令labels=False即可

ages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32]) #年齡數據
pd.cut(ages, [0,5,20,30,50,100], labels=False)

輸出：

array([0, 0, 1, 3, 3, 1, 4, 4, 4, 4, 4, 1, 1, 2, 2, 3], dtype=int64)

第一個0表示1在第0個bin中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pd.cut()

`pandas.cut`用來把一組數據分割成離散的區間。比如有一組年齡數據，可以使用`pandas.cut`將年齡數據分割成不同的年齡段並打上標籤。

返回值

例子

將ages平分成5個區間

將ages平分成5個區間並指定labels

給ages指定區間進行分割

返回分割後的bins

只返回x中的數據在哪個bin

BN時候參數

Entropy,Gini,Error關係，信息熵，基尼係數

pd.cut()

快速使用 BERT 生成詞向量：bert-as-service，bert生成句子向量和詞向量

缺失值、異常值處理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

pd.cut()

pandas.cut用來把一組數據分割成離散的區間。比如有一組年齡數據，可以使用pandas.cut將年齡數據分割成不同的年齡段並打上標籤。

返回值

例子

將ages平分成5個區間

將ages平分成5個區間並指定labels

給ages指定區間進行分割

返回分割後的bins

只返回x中的數據在哪個bin

`pandas.cut`用來把一組數據分割成離散的區間。比如有一組年齡數據，可以使用`pandas.cut`將年齡數據分割成不同的年齡段並打上標籤。