1.读取数据
import pandas as pd
data=pd.read_csv('CTGNM.csv')
columns= data.columns.tolist()
columns # 显示变量信息
['LB', 'AC', 'FM', 'UC',
2 .更详细的信息
data.info()
如下:
RangeIndex: 2126 entries, 0 to 2125 Data columns (total 23 columns): LB 2126 non-null float64 AC 2126 non-null float64 FM 2126 non-null float64 UC 2126 non-null float64
依次为变量名,数据个数,是否有缺失,数据类型
3 .也可以只检查是否要有缺失值
import numpy as np
np.isnan(data).any()
如果print 出来的是 False,则说明没有缺失值
LB False AC False FM False
4.查看数据矩阵
data.shape
5 .查看所有变量的前5个数据
data.head()
6 .把变量的数据类型统一成float64
data[0:23] = data[0:23].astype('float64')
7 .自变量和因变量的定义
(input output矩阵定义)
columns=data.columns.tolist()
#读取其中的前22个变量作为自变量
feature=columns[0:22]
print feature #打印
#读取最后一个特征作为因变量
y_var=columns[22:23]
print y_var