1.讀取數據
import pandas as pd
data=pd.read_csv('CTGNM.csv')
columns= data.columns.tolist()
columns # 顯示變量信息
['LB', 'AC', 'FM', 'UC',
2 .更詳細的信息
data.info()
如下:
RangeIndex: 2126 entries, 0 to 2125 Data columns (total 23 columns): LB 2126 non-null float64 AC 2126 non-null float64 FM 2126 non-null float64 UC 2126 non-null float64
依次爲變量名,數據個數,是否有缺失,數據類型
3 .也可以只檢查是否要有缺失值
import numpy as np
np.isnan(data).any()
如果print 出來的是 False,則說明沒有缺失值
LB False AC False FM False
4.查看數據矩陣
data.shape
5 .查看所有變量的前5個數據
data.head()
6 .把變量的數據類型統一成float64
data[0:23] = data[0:23].astype('float64')
7 .自變量和因變量的定義
(input output矩陣定義)
columns=data.columns.tolist()
#讀取其中的前22個變量作爲自變量
feature=columns[0:22]
print feature #打印
#讀取最後一個特徵作爲因變量
y_var=columns[22:23]
print y_var