数据挖掘——sklearn了解

原創

2020-07-05 23:54

数据挖掘——sklearn了解

sklearn库的大概

使用sklearn进行简单的数据挖掘

数据挖掘的步骤

参考文献

sklearn库的大概

网上有很多关于sklearn的学习教程，其实最好的就是官方文档。
　　自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了，scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。还包括了特征提取，数据处理和模型评估者三大模块。
　　sklearn是Scipy的扩展，建立在Numpy和matplolib库的基础上。利用这几大模块的优势，可以大大的提高机器学习的效率。
　　sklearn拥有着完善的文档，上手容易，具有着丰富的API，在学术界颇受欢迎。sklearn已经封装了大量的机器学习算法，包括LIBSVM和LIBINEAR。同时sklearn内置了大量数据集，节省了获取和整理数据集的时间。
　　所以sklearn在数据挖掘中成了一个最基本也是最常用的库之一。

sklearn官方文档的内容

定义：针对经验E和一系列的任务T和一定表现的衡量P，如果随着经验E的积累，针对定义好的任务T可以提高表现P，就说明机器具有学习能力。

sklearn官方文档结构

由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：

常用的回归：线性、决策树、SVM、KNN ；
集成回归：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees ；
常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；
集成分类：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类：k均值（K-means）、层次聚类（Hierarchical clustering）、DBSCAN
常用降维：LinearDiscriminantAnalysis、PCA

这个流程图代表：蓝色圆圈是判断条件，绿色方框是可以选择的算法，我们可以根据自己的数据特征和任务目标去找一条自己的操作路线。

sklearn中包含众多数据预处理和特征工程相关的模块，虽然刚接触sklearn时，大家都会为其中包含的各种算法的广度深度所震惊，但其实sklearn六大板块中有两块都是关于数据预处理和特征工程的，两个板块互相交互，为建模之前的全部工程打下基础。

使用sklearn进行简单的数据挖掘

数据挖掘的步骤

数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn库可以方便地进行特征工程和模型训练工作。

参考文献

[1] Python机器学习笔记：sklearn库的学习

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数据挖掘——sklearn了解

数据挖掘——sklearn了解

sklearn库的大概

sklearn官方文档的内容

sklearn官方文档结构

使用sklearn进行简单的数据挖掘

数据挖掘的步骤

参考文献

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

CPU中的DVFS

硬件架構的藝術（二）

數據挖掘——sklearn瞭解

硬件架構的藝術(一)

System Verilog我的學習之路（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結