数据挖掘之旅:基础环境搭建(一)

 

数据挖掘介绍

数据挖掘提供了一种可以让计算机学习如何利用数据做出决策的方法。数据挖掘可以用于天气预报,阻止垃圾邮件,检测网站语言,或者在交友网站找到另一半。数据挖掘并不是一项新的技术,但是却有许多不同的应用,新的应用不断被发现,又促进了数据挖掘技术的发展。

数据挖掘是算法、统计、工程、优化和计算机科学的一部分。其实我们经常谈到的机器学习,人工智能,深度学习,神经网络等都跟数据挖掘是密不可分的。大多数情况下的数据挖掘需要与具体的领域相结合,才能发挥出它的威力。

我们通过创建一个数据集来开始我们的数据挖掘之旅。数据集包括两个方面:

  • 样本,是现实世界中的物体。样本可以是一本书、照片、动物、人或任何其他对象。

  • 特征,是我们数据集中样本的描述。特征可以是某个物体的属性,如书的页数,价格,纸张大小等等。

下一步是调整数据挖掘算法。每个数据挖掘算法都有参数,有的是算法本身的,有的是用户提供的。这种调优可以让算法学习如何对数据进行决策。

举个简单的例子,我们可能希望计算机能够将人归类为 "矮 "或 "高"。我们先收集我们的数据集,其中包括不同人的身高,以及他们被认为是矮还是高。

下一步就涉及到我们算法的调整。作为一个简单的算法;如果身高超过 x cm,那么这个人就是高个子,否则就是矮个子。然后,我们的训练算法将遍历所有数据,并决定 x的值,对于上面的数据集,一个合理的值是170厘米。任何身高超过170厘米的人都会被算法认为是高个子。其他任何人都被认为是矮个子。

在上面的数据集中,我们有一个明显的特征类型,身高。这个特征是数据挖掘中的一个重要问题。在后面的文章中,我们将讨论在数据集中如何选择质量较高的特征,这一步往往需要一些领域的知识或者背景,实际上就是需要懂相关的业务。

 

使用Python和IPython

在这一节中,我们将介绍Python的安装,以及使用的环境--IPython Notebook。此外,我们将安装numpy模块,我们将在第一组例子中使用它。

安装Python

Python是一种神奇的、通用的、易于使用的语言。

我们将使用Python 3.7,由于Python2在未来官方不再升级和维护,因此选择P作为最终的版本。

Python的安装比较简单,推荐大家安装时使用Anaconda,集成了Python的很多工具包,免去了pip等工具安装的烦恼,对于初学者来说非常友好。

Anaconda下载的链接:https://www.anaconda.com/products/individual

如果觉得Anaconda比较重,可以通过官网进行安装,这里推荐大家使用3.7.6版本,下载链接:https://www.python.org/downloads/release/python-376/

安装IPython

IPython是一个Python开发的平台,它包含了许多工具和运行Python的环境,并且具有比标准解释器更多的功能。它包含强大的 IPython Notebook,允许你在 Web 浏览器中编写程序。它还可以格式化你的代码,显示输出,并允许你注释你的脚本。它是一个探索数据集的好工具,我们将使用它作为本书代码的主要环境。

要在你的计算机上安装IPython,你可以在命令行提示符中键入以下内容(而不是在Python中)。如果是Windows环境并且安装了Anaconda的话,可以直接打开Anaconda里的prompt,然后输入以下命令:

$ pip install ipython[all]

你需要管理员权限才能在全系统范围内安装。如果您不想(或不能)在全系统范围内进行更改,您可以通过运行此命令为当前用户安装。

$ pip install --user ipython[all]

如果你在安装过程中遇到困难,请查看官方文档以获得更详细的安装说明:http://ipython.org/install.html。

安装好IPython Notebook后,你可以用以下方法启动它。

$ ipython3 notebook

这将做两件事。

首先,它将创建一个IPython Notebook实例,并在你刚才使用的命令提示符中运行。

第二,它会启动你的网络浏览器并连接到这个实例,允许你创建一个新的笔记本。

安装scikit-learn

scikit-learn包是一个机器学习库,用Python编写。它包含了许多算法、数据集、实用程序和框架,用于执行机器学习。scikit-learn建立在科学python堆栈的基础上,scikit-learn用户如numpy和scipy库通常都会对速度进行优化。这使得scikit-learn在很多情况下都是快速和可扩展的,而且对于从初学者到高级研究用户的所有技能范围都很有用。

要安装 scikit-learn,你可以使用 Python 3 自带的 pip 工具,如果你还没有 numpy 和 scipy 库,它也会安装它们。打开一个具有管理员/root权限的终端,并输入以下命令。

$ pip3 install -U scikit-learn

希望通过编译源码来安装最新版本的用户,或者查看更详细的安装说明,可以到 scikit-learn: machine learning in Python install.html 查看安装 scikit-learn 的官方文档。

本文如有错误的地方,请私信或者留言指出。

欢迎关注微信公众号数据挖掘杂货铺!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章