編譯:yxy
出品:ATYUN訂閱號
基本的數據集信息
(1)讀取CSV數據集
pd.DataFrame.from_csv(“csv_file”)
或者
pd.read_csv(“csv_file”)
(2)讀取EXCEL數據集
pd.read_excel( “excel_file”)
(3)將數據幀直接寫入CSV
逗號分隔,沒有索引
df.to_csv(“data.csv”,sep=“,”,index= False)
(4)基本的數據集特徵信息
df.info()
(5)基本的數據集統計
print(df.describe())
(6)在表中打印數據幀
print(tabulate(print_table,headers= headers))
其中“print_table”是列表的列表,“headers”是字符串頭的列表
(7)列出列名
df.columns
基本的數據處理
(8)刪除丟失的數據
df.dropna(axis= 0,how='any')
返回給定軸缺失的標籤對象,並在那裏刪除所有缺失數據(’any’:如果存在任何NA值,則刪除該行或列。)。
(9)替換丟失的數據
df.replace(to_replace= None,value= None)
將“to_replace”中的值替換爲“value”。
(10)檢查缺失值
pd.isnull(object)
檢測缺失值(數值數組中的NaN,對象數組中的None/ NaN)
(11)刪除特徵
df.drop('feature_variable_name', axis=1)
axis中0對應行,1對應列。
(12)將對象類型轉換爲FLOAT
pd.to_numeric(df [“feature_name”],errors='coerce')
將對象類型轉換爲數值,以便能夠執行計算(如果它們是字符串的話)。
(13)將數據幀轉換爲NUMPY數組
df.as_matrix()
(14)獲得數據幀的前N行
df.head(n)
(15)按特徵名稱獲取數據
df.loc [FEATURE_NAME]
數據幀操作
(16)將函數應用於數據幀
這個將數據幀的“height”列中的所有值乘以2
df["height"].apply(lambda height:2 * height)
或
def multiply(x): return x* 2 df["height"].apply(multiply)
(17)重命名列
我們將數據幀的第3列重命名爲“size”
df.rename(columns= {df.columns [2]:'size'},inplace= True)
(18)獲取列的唯一條目
在這裏,我們將獲得“名稱”列的唯一條目
df["name"].unique()
(19)訪問子數據幀
在這裏,我們抓取列的選擇,數據幀中的“name”和“size”
new_df= df [[“name”,“size”]]
(20)數據的摘要信息
# Sum of values in a data frame df.sum() # Lowest value of a data frame df.min() # Highest value df.max() # Index of the lowest value df.idxmin() # Index of the highest value df.idxmax() # Statistical summary of the data frame, with quartiles, median, etc. df.describe() # Average values df.mean() # Median values df.median() # Correlation between columns df.corr() # To get these values for only one column, just select it like this# df["size"].median()
(21)對數據進行排序
df.sort_values(ascending= False)
(22)布爾索引
在這裏,我們將過濾名爲“size”的數據列,僅顯示值等於5的
df [df [“size”]== 5]
(23)選擇值
選擇“size”列的第一行
view source
df.loc([0],['size'])