Kaggle入門系列:(二)機器學習環境搭建

想要參加Kaggle,首先要搭建好我們的機器學習環境。

參加Kaggle競賽的第一步,選定一個平臺。目前,在數據分析方向最主流的兩個平臺是R語言python,相比較之下,我更推薦大家使用Python來完成Kaggle上的競賽。

原因主要包括以下幾點:
- Python的生態系統比較完善,針對數據分析、機器學習的各個領域都有相對應的包來解決我們的問題,比如:sklearn,pandas,xgboost 等。
- Python有一些非常優秀的深度學習框架供我們選擇,比如Theano,TensorFlow,Keras 等
- Python語法簡單,上手速度快,能夠用最少的代碼解決我們的問題,讓我們的主要精力放在解決業務問題而不是編程問題上。

1、操作系統選擇

Windows是我們平時辦公用的較多的操作系統,但是,在這裏還是推薦使用Linux。Ubuntu是目前使用比較多的桌面Linux系統,各種軟件的支持也比較好。

2、Python開發環境搭建


Python有兩個版本可供我們選擇,python3.x和python2.x。由於3.x與2.x的差異問題,有很多包對3.x的支持不太好,所以建議選擇Python2.x


Ubuntu系統都自帶Python,我們只需要安裝常用的數據分析包:numpy,scipy,pandas,sciket-learn,matplotlib等。
Ubuntu下可以用命令安裝:
sudo apt-get install python-numpy sudo apt-get install python-scipy sudo apt-get install python-matplotlib sudo apt-get install python-pandas sudo apt-get install python-sklearn

Anaconda
如果覺得手動一個一個安裝比較麻煩,我們可以選擇打包好的Python環境。比較推薦大家使用Anaconda來搭建數據分析環境。

Anaconda*是一個用於科學計算的Python發行版,支持 Linux, Mac, Windows系統,提供了包管理與環境管理的功能,可以很方便地解決多版本python並存、切換以及各種第三方包安裝問題。*

3.深度學習

AlphaGo在2017年年初化身Master,在弈城和野狐等平臺上橫掃中日韓圍棋高手,取得60連勝,未嘗敗績。AlphaGo背後神祕的推動力就是深度學習。深度學習領域目前最爲流行的框架主要有:

(1)TensorFlow


TensorFlow是一款開源的數學計算軟件,使用數據流圖(Data Flow Graph)的形式進行計算。圖中的節點代表數學運算,而圖中的線條表示多維數據數組(tensor)之間的交互。TensorFlow靈活的架構可以部署在一個或多個CPU、GPU的臺式以及服務器中,或者使用單一的API應用在移動設備中。TensorFlow最初是由研究人員和Google Brain團隊針對機器學習和深度神經網絡進行研究所開發的,目前開源之後可以在幾乎各種領域適用。

(2)Torch


Torch是一個有大量機器學習算法支持的科學計算框架,其誕生已經有十年之久,但是真正起勢得益於Facebook開源了大量Torch的深度學習模塊和擴展。Torch另外一個特殊之處是採用了編程語言Lua(該語言曾被用來開發視頻遊戲)。

(3)Theano


2008年誕生於蒙特利爾理工學院,Theano派生出了大量深度學習Python軟件包,最著名的包括Blocks和Keras。Theano的核心是一個數學表達式的編譯器,它知道如何獲取你的結構。並使之成爲一個使用numpy、高效本地庫的高效代碼,如BLAS和本地代碼(C++)在CPU或GPU上儘可能快地運行。它是爲深度學習中處理大型神經網絡算法所需的計算而專門設計的,是這類庫的首創之一(發展始於2007年),被認爲是深度學習研究和開發的行業標準。

結束語

本篇文章主要是搭建入門機器學習的基礎環境,所以不過多介紹深度學習環境的搭建,有興趣的同學在入門之後可以在這些框架的官方網站得到更多詳細的介紹。

完成基礎環境搭建後,下篇文章,我選擇最簡單的Titanic倖存者預測來入門Kaggle。

歡迎關注微信公衆號:kaggle數據分析!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章