这两天遇到的scikit-learn的问题

scikit-learn的onehotEncoder,是只能根据整数来进行one-hot编码的,然后我的数据很多都是,string,这样子有一个办法,就是先LableEncoder再onehotEncoder,然而这样子必须一行一行算,是不能一个矩阵来的,这个办法数据量小还可以,多了的话就哭了......

然后这个办法解决用pandas的get_dummies。这个可以直接做one-hot。然而,对mysql和panda,一个比较坑的地方(也不能算坑只能说我比较怂),mysql到python里都是元组的形式,而panda是基于numpy的,操作基本都是list,所以注意这个地方比较容易出错.....

希望我能好好看看,panda还有scikit-learn.....还有mysql,这几个问题都在于要多用.....


scikit-learn,这是一个神奇的工具,具体的都在官方文档里,用google可以google到一些例子,数据预处理,建模,验证(算准确率AUC)都是有函数的,先把逻辑回归这个搞一搞,predict_proba是预测准确率,predict是阈值设成了0.5然后大于0.5就是1,小于就是0,是一个分类,然后可以score评估,还可以用准确率(这个是另一个函数等我代码写完......加了注释传上来......),然后还可以算AUC,ROC......

http://blog.csdn.net/pzy20062141/article/details/48711355

http://blog.csdn.net/chjjunking/article/details/5933105\

这两个是说AUC和ROC的,好好看看,现在只能理解AUC越大越好也是太弱了......

然后http://www.cnblogs.com/kylinlin/p/5309703.html是一个感觉很好的scikit-learn的逻辑回归例子。


scikit-learn,可以输入one-hot格式的编码,还有别的咩?这个要找找.......


学无止境啊......

发布了56 篇原创文章 · 获赞 9 · 访问量 6万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章