1.二值屬性轉換爲BOOL類型方法:y = 1 * (df.col_name == "attri_value") 返回的爲df,且其中元素等於"attri_value"的爲True,另一個值爲False。
2.統計df中每個特徵取值的分佈:df.column_name.value_counts().
3.
樣本標準偏差
,
代表所採用的樣本X1,X2,...,Xn的均值。
4.
dataframe一列變多列,其中用空格作分隔符
** table['address'].str.split(r' ',expand=True)**
用pd.concat把多列加回table,命名新的兩列Province, City
合起來就是
** pd.concat([table,table['address'].str.split(r' ',expand=True)],axis=1,names=['Province','City'])**
5.
1、pd.set_option('expand_frame_repr', False)
True就是可以換行顯示。設置成False的時候不允許換行
2、pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)
顯示的最大行數和列數,如果超額就顯示省略號,這個指的是多少個dataFrame的列。如果比較多又不允許換行,就會顯得很亂。
3、pd.set_option('precision', 5)
顯示小數點後的位數
4、pd.set_option('large_repr', A)
truncate表示截斷,info表示查看信息,一般選truncate
5、pd.set_option('max_colwidth', 5)
列長度
6、pd.set_option('chop_threshold', 0.5)
絕對值小於0.5的顯示0.0
7、pd.set_option('colheader_justify', 'left')
顯示居中還是左邊,
8、pd.set_option('display.width', 200)
橫向最多顯示多少個字符, 一般80不適合橫向的屏幕,平時多用200.
6.
pandas有個一步到到位的方法,非常方便。
- data['name'].str.split('|',expand=True)