幫助數據科學家理解數據的23個pandas常用代碼

編譯：yxy

出品：ATYUN訂閱號

基本的數據集信息

（1）讀取CSV數據集

pd.DataFrame.from_csv（“csv_file”）

或者

pd.read_csv（“csv_file”）

（2）讀取EXCEL數據集

pd.read_excel（ “excel_file”）

（3）將數據幀直接寫入CSV

逗號分隔，沒有索引

df.to_csv（“data.csv”，sep=“，”，index= False）

（4）基本的數據集特徵信息

df.info（）

（5）基本的數據集統計

print(df.describe())

（6）在表中打印數據幀

print（tabulate（print_table，headers= headers））

其中“print_table”是列表的列表，“headers”是字符串頭的列表

（7）列出列名

df.columns

基本的數據處理

（8）刪除丟失的數據

df.dropna（axis= 0，how='any'）

返回給定軸缺失的標籤對象，並在那裏刪除所有缺失數據（’any’：如果存在任何NA值，則刪除該行或列。）。

（9）替換丟失的數據

df.replace（to_replace= None，value= None）

將“to_replace”中的值替換爲“value”。

（10）檢查缺失值

pd.isnull(object)

檢測缺失值（數值數組中的NaN，對象數組中的None/ NaN）

（11）刪除特徵

df.drop('feature_variable_name', axis=1)

axis中0對應行，1對應列。

（12）將對象類型轉換爲FLOAT

pd.to_numeric（df [“feature_name”]，errors='coerce'）

將對象類型轉換爲數值，以便能夠執行計算(如果它們是字符串的話)。

（13）將數據幀轉換爲NUMPY數組

df.as_matrix（）

（14）獲得數據幀的前N行

df.head(n)

（15）按特徵名稱獲取數據

df.loc [FEATURE_NAME]

數據幀操作

（16）將函數應用於數據幀

這個將數據幀的“height”列中的所有值乘以2

df["height"].apply(lambda height:2 * height)

或

def multiply(x):
    return x* 2
df["height"].apply(multiply)

（17）重命名列

我們將數據幀的第3列重命名爲“size”

df.rename（columns= {df.columns [2]：'size'}，inplace= True）

（18）獲取列的唯一條目

在這裏，我們將獲得“名稱”列的唯一條目

df["name"].unique()

（19）訪問子數據幀

在這裏，我們抓取列的選擇，數據幀中的“name”和“size”

new_df= df [[“name”，“size”]]

（20）數據的摘要信息

# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()

（21）對數據進行排序

df.sort_values(ascending= False)

（22）布爾索引

在這裏，我們將過濾名爲“size”的數據列，僅顯示值等於5的

df [df [“size”]== 5]

（23）選擇值

選擇“size”列的第一行

view source

df.loc（[0]，['size']）