python數據分析簡介

Python是一門簡單易學且功能強大的編程語言。它擁有高效的高級數據結構,並且能夠用簡單而又高效的方式進行面向對象編程。 Python優雅的語法和動態類型,再結合它的解釋性,使其在許多領域成爲編寫腳本或開發應用程序的理想語言。

要認識 Python,首先得明確一點, Python是一門編程語言!這就意味着,原則上來說,它能夠完成 Matlab能夠做的所有事情(因爲大不了從頭開始編寫),而且在大多數情況下,同樣功能的 Python代碼會比 Matlab代碼更加簡潔、易懂;另一方面,因爲它是一門編程語言,所以它能夠完成很多 Matlab不能做的事情,比如開發網頁、開發遊戲、編寫爬蟲來採集數據等。

Python以開發效率著稱,也就是說,它致力於以最短的代碼完成任務。 Python通常爲人詬病的是它的運行效率,而 Python還被稱爲“膠水語言”,它允許我們把耗時的核心部分用C/C++等更高效率的語言編寫,然後由它來“黏合”,這很大程度上已經解決了 Python的運行效率問題。事實上,在大多數數據任務上, Python的運行效率已經可以媲美CC++語言。同時,Python在數據分析和挖掘上的功能,和之前講解的R語言類似,只不過R語言多用於統計領域,而Python在互聯網大行其道的今天將更加大放光彩。

這裏只講解用 Python進行數據挖掘這一部分功能,而這部分功能,僅僅是 Python強大功能中的冰山一角。如果對Python基礎語法不瞭解,建議先學習和了解Python之後再學習它的數據挖掘功能。隨着 Numpy、scipy Matplotlib和 Pandas等衆多程序庫的開發,Python在科學領域佔據着越來越重要的地位,包括科學計算、數學建模、數據挖掘,甚至可以預見,未來 Python將會成爲科學領域的編程語言的主流。
搭建 Python開發平臺

所要考慮的問題

Python的官網:htps:// www.python.org。搭建 Python開發平臺有幾個問題需要考慮,第一是選擇什麼操作系統,是 Windows還是 Linux?第二是選擇哪個 Python版本,是2.x還是3.x?

首先,來回答後一個問題。3.x是對2.x的一個較大的更新,可以認爲, Python3.x什麼都好,就是它的部分代碼不兼容2.x的,這使得不少好用的庫都無法支持3.x(值得慶幸的是,越來越多的主流庫已經開始支持3.x了)。這裏使用 Python2.7版本,但儘可能地同時兼容2.x和3.x,包括在各種第三方庫也使用兩個版本都兼容的擴展庫。

其次,就是選擇操作系統的問題,主要是在 Windows和 Linux之間選擇。 Python是跨平臺的語言,因此腳本可以跨平臺運行。然而;不同的平臺運行效率不一樣,一般來說,在Linux下的運行速度會比 Windows快,而且是對於數據分析和挖掘任務。此外,在 Linux下搭建 Python環境相對來說容易一些,很多 Linux發行版自帶了 Python程序,並且在 Linux下更容易解決第三方庫的依賴問題。當然, Linux的操作門檻較高,入門的讀者可以先在Windows環境下熟悉,然後再考慮遷移到Linux環境中。

基礎平臺的搭建

第一步是 Python核心程序的安裝,分爲 Windows和 Linux介紹;最後介紹一個 Python的科學計算髮行版— Anaconda

(1)Windows:在 Windows系統中安裝 Python比較容易,直接到官方網站下載相應的msi安裝包安裝即可,和一般軟件的安裝無異,在此不贅述。安裝包還分32位和64位版本,請讀者自行選擇適合的版本

(2) Linux:大多數 Linux發行版,如 Centos、 Debian、 Ubuntu等,都已經自帶了 Python2.x的主程序,因此並不需要額外安裝。

(3) Anaconda:安裝 Python核心程序只是第一步,爲了實現更豐富的科學計算功能,還需要安裝一些第三方的擴展庫,這對於一般的讀者來說可能顯得比較麻煩,尤其是在 Windows環境中還可能出現各種錯誤。幸好,已經有人專門將科學計算所需要的模都編譯好,然後打包以發行版的形式供用戶使用,Anaconda就是其中一個常用的科學計算髮行版。它的特點如下:

1、包含了衆多流行的科學、數學、工程、數據分析的Python包;

2、完全開源和免費;

3、全平臺支持,可自由切換。

因此,推薦初級數據學習人員安裝此Python發行版,下載地址爲:https://www.anaconda.com/download/

安裝好python後,只需要在命令窗口輸入python就可以進入Python環境

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章