分类问题

特征值为空如何处理?

参考资料:
https://www.zhihu.com/search?type=content&q=%E7%89%B9%E5%BE%81%E5%80%BC%E4%B8%BA%E7%A9%BA
最后决定取均值了。
不过这个问题还是值得思考的,依研究问题的不同,做法也不尽相似,基本思想就是根据其他数据信息来进行填充,这对于图像处理来说是个不错的选择。

仔细想想,我的特征值是距离,这个取平均值,似乎就不是那么合理了,不过如果数据量很大,寻找一个大概的分布规律,按照分布取均值,应该还是可以的。

特征值不是同一种数据格式

选取的特征值肯定不是同一种属性,比如年龄,薪水,如何处理?
1。 最常见做法:对同一列做标准化(需要属性服从正态分布)
2。区间缩放法:
value - min /(max - min)

卡方检测

其实是假设两个变量不相关的情况下,用最大似然估计每种情况出现的频率f,
然后累计(f-real)^2/real

sklearn

真的要种草这个库了,上面的问题,居然都有解释说明,很不错。
http://blog.csdn.net/myproudcodelife/article/details/52515849

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章