數據挖掘之旅:基礎環境搭建(一)

 

數據挖掘介紹

數據挖掘提供了一種可以讓計算機學習如何利用數據做出決策的方法。數據挖掘可以用於天氣預報,阻止垃圾郵件,檢測網站語言,或者在交友網站找到另一半。數據挖掘並不是一項新的技術,但是卻有許多不同的應用,新的應用不斷被發現,又促進了數據挖掘技術的發展。

數據挖掘是算法、統計、工程、優化和計算機科學的一部分。其實我們經常談到的機器學習,人工智能,深度學習,神經網絡等都跟數據挖掘是密不可分的。大多數情況下的數據挖掘需要與具體的領域相結合,才能發揮出它的威力。

我們通過創建一個數據集來開始我們的數據挖掘之旅。數據集包括兩個方面:

  • 樣本,是現實世界中的物體。樣本可以是一本書、照片、動物、人或任何其他對象。

  • 特徵,是我們數據集中樣本的描述。特徵可以是某個物體的屬性,如書的頁數,價格,紙張大小等等。

下一步是調整數據挖掘算法。每個數據挖掘算法都有參數,有的是算法本身的,有的是用戶提供的。這種調優可以讓算法學習如何對數據進行決策。

舉個簡單的例子,我們可能希望計算機能夠將人歸類爲 "矮 "或 "高"。我們先收集我們的數據集,其中包括不同人的身高,以及他們被認爲是矮還是高。

下一步就涉及到我們算法的調整。作爲一個簡單的算法;如果身高超過 x cm,那麼這個人就是高個子,否則就是矮個子。然後,我們的訓練算法將遍歷所有數據,並決定 x的值,對於上面的數據集,一個合理的值是170釐米。任何身高超過170釐米的人都會被算法認爲是高個子。其他任何人都被認爲是矮個子。

在上面的數據集中,我們有一個明顯的特徵類型,身高。這個特徵是數據挖掘中的一個重要問題。在後面的文章中,我們將討論在數據集中如何選擇質量較高的特徵,這一步往往需要一些領域的知識或者背景,實際上就是需要懂相關的業務。

 

使用Python和IPython

在這一節中,我們將介紹Python的安裝,以及使用的環境--IPython Notebook。此外,我們將安裝numpy模塊,我們將在第一組例子中使用它。

安裝Python

Python是一種神奇的、通用的、易於使用的語言。

我們將使用Python 3.7,由於Python2在未來官方不再升級和維護,因此選擇P作爲最終的版本。

Python的安裝比較簡單,推薦大家安裝時使用Anaconda,集成了Python的很多工具包,免去了pip等工具安裝的煩惱,對於初學者來說非常友好。

Anaconda下載的鏈接:https://www.anaconda.com/products/individual

如果覺得Anaconda比較重,可以通過官網進行安裝,這裏推薦大家使用3.7.6版本,下載鏈接:https://www.python.org/downloads/release/python-376/

安裝IPython

IPython是一個Python開發的平臺,它包含了許多工具和運行Python的環境,並且具有比標準解釋器更多的功能。它包含強大的 IPython Notebook,允許你在 Web 瀏覽器中編寫程序。它還可以格式化你的代碼,顯示輸出,並允許你註釋你的腳本。它是一個探索數據集的好工具,我們將使用它作爲本書代碼的主要環境。

要在你的計算機上安裝IPython,你可以在命令行提示符中鍵入以下內容(而不是在Python中)。如果是Windows環境並且安裝了Anaconda的話,可以直接打開Anaconda裏的prompt,然後輸入以下命令:

$ pip install ipython[all]

你需要管理員權限才能在全系統範圍內安裝。如果您不想(或不能)在全系統範圍內進行更改,您可以通過運行此命令爲當前用戶安裝。

$ pip install --user ipython[all]

如果你在安裝過程中遇到困難,請查看官方文檔以獲得更詳細的安裝說明:http://ipython.org/install.html。

安裝好IPython Notebook後,你可以用以下方法啓動它。

$ ipython3 notebook

這將做兩件事。

首先,它將創建一個IPython Notebook實例,並在你剛纔使用的命令提示符中運行。

第二,它會啓動你的網絡瀏覽器並連接到這個實例,允許你創建一個新的筆記本。

安裝scikit-learn

scikit-learn包是一個機器學習庫,用Python編寫。它包含了許多算法、數據集、實用程序和框架,用於執行機器學習。scikit-learn建立在科學python堆棧的基礎上,scikit-learn用戶如numpy和scipy庫通常都會對速度進行優化。這使得scikit-learn在很多情況下都是快速和可擴展的,而且對於從初學者到高級研究用戶的所有技能範圍都很有用。

要安裝 scikit-learn,你可以使用 Python 3 自帶的 pip 工具,如果你還沒有 numpy 和 scipy 庫,它也會安裝它們。打開一個具有管理員/root權限的終端,並輸入以下命令。

$ pip3 install -U scikit-learn

希望通過編譯源碼來安裝最新版本的用戶,或者查看更詳細的安裝說明,可以到 scikit-learn: machine learning in Python install.html 查看安裝 scikit-learn 的官方文檔。

本文如有錯誤的地方,請私信或者留言指出。

歡迎關注微信公衆號數據挖掘雜貨鋪!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章