python 數據分析1 準備工作

原創

2020-05-02 05:53

本文是《Python for Data Analysis》譯文的筆記，也是一個總結。

學習 python，無論是開發還是機器學習，都應掌握數據分析基礎，推薦看這本書並進行相關練習。Github 地址

我會按章節整理我認爲重要的內容，供參考。

一、準備工作

一些常見的數據分析工作——

無論你學的是機器學習、深度學習或是其他，想必都離不開上述任務，所以學好數據分析非常重要！

一般說的數據指結構化數據，包括但不限於表格型數據，多維數組「矩陣」，通過關鍵列相互聯繫的多個表「SQL」。

Numpy
- 最常用的是數組處理能力
- 快速高效的多維數組 ndarray
- 對數組執行元素級的運算和對數組直接執行數學運算的函數
pandas
- 提供了便捷處理結構化數據的 數據結構和函數
- 常用對象有 DataFrame 「二維」和 Series「一維」
- 常用功能有索引，切片聚合等
matplotlib
- 常用來繪製圖表和二維數據可視化
IPython->jupyter
- Ipython 目前是用於編寫、測試、調試 Python 代碼的強大 shell
- Jupyter Notebook 是一個支持多語言的交互式網絡代碼“筆記本”
- Ipython + Jupyter Notebook 可以實現在瀏覽器上寫 Python 代碼，適合數據探索和可視化
- Jupyter Notebook 除了寫 Python 代碼還能寫 Markdown 和 HTML 代碼「創建代碼 + 文本」
Scipy
- 科學計算包的集合，比如想求積分和微分可以用 scipy.integrate 包
- Numpy + Scipy 結合使用，處理傳統的科學計算問題
Scikit-learn
- Python 的通用的機器學習包，即實現好了機器學習算法
- 子模塊包括分類、迴歸、聚類、降維、選型、預處理
statsmodels
- 一個統計分析包，包含經典統計學和經濟計量學的算法
- statsmodels 關注統計推斷， scikit-learn 注重預測

總體分爲兩種：
- 一、直接安裝 Python「推薦 Python3.6 ，Python2 以後不維護了，Python3.7 有的包不適用，python 包都得自己手動安裝」
- 二、安裝 Anaconda「一個python的發行版，包括了python和很多常見的軟件庫, 和一個包管理器conda。常見的科學計算類的庫都包含在裏面了，使得安裝比常規python安裝要容易」
不同操作系統安裝方法不同「windows，mac OS 和 Linux」
兩種包的安裝和升級工具 pip 和 conda

就像 Java的 IDE 有 Eclipse，Python 也有 IDE，我用都是 Pycharm。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.