幫助數據科學家理解數據的23個pandas常用代碼

編譯:yxy

出品:ATYUN訂閱號

基本的數據集信息

(1)讀取CSV數據集

pd.DataFrame.from_csv(“csv_file”)

或者

pd.read_csv(“csv_file”)

(2)讀取EXCEL數據集

pd.read_excel( “excel_file”)

(3)將數據幀直接寫入CSV

逗號分隔,沒有索引

df.to_csv(“data.csv”,sep=“,”,index= False)

(4)基本的數據集特徵信息

df.info()

(5)基本的數據集統計

print(df.describe())

(6)在表中打印數據幀

print(tabulate(print_table,headers= headers))

其中“print_table”是列表的列表,“headers”是字符串頭的列表

(7)列出列名

df.columns

基本的數據處理

(8)刪除丟失的數據

df.dropna(axis= 0,how='any')

返回給定軸缺失的標籤對象,並在那裏刪除所有缺失數據(’any’:如果存在任何NA值,則刪除該行或列。)。

(9)替換丟失的數據

df.replace(to_replace= None,value= None)

將“to_replace”中的值替換爲“value”。

(10)檢查缺失值

pd.isnull(object)

檢測缺失值(數值數組中的NaN,對象數組中的None/ NaN)

(11)刪除特徵

df.drop('feature_variable_name', axis=1)

axis中0對應行,1對應列。

(12)將對象類型轉換爲FLOAT

pd.to_numeric(df [“feature_name”],errors='coerce')

將對象類型轉換爲數值,以便能夠執行計算(如果它們是字符串的話)。

(13)將數據幀轉換爲NUMPY數組

df.as_matrix()

(14)獲得數據幀的前N行

df.head(n)

(15)按特徵名稱獲取數據

df.loc [FEATURE_NAME]

數據幀操作

(16)將函數應用於數據幀

這個將數據幀的“height”列中的所有值乘以2

df["height"].apply(lambda height:2 * height)

def multiply(x):
    return x* 2
df["height"].apply(multiply)

(17)重命名列

我們將數據幀的第3列重命名爲“size”

df.rename(columns= {df.columns [2]:'size'},inplace= True)

(18)獲取列的唯一條目

在這裏,我們將獲得“名稱”列的唯一條目

df["name"].unique()

(19)訪問子數據幀

在這裏,我們抓取列的選擇,數據幀中的“name”和“size”

new_df= df [[“name”,“size”]]

(20)數據的摘要信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

(21)對數據進行排序

df.sort_values(ascending= False)

(22)布爾索引

在這裏,我們將過濾名爲“size”的數據列,僅顯示值等於5的

df [df [“size”]== 5]

(23)選擇值

選擇“size”列的第一行

view source

df.loc([0],['size'])

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章