Pandas創始人手把手教你:利用Python進行數據分析(思維導圖)



導讀:Python是目前數據科學領域的王者語言,衆多科學家、工程師、分析師都使用它來完成數據相關的工作。由於Python具有簡單易學、語法靈活的特點,很多需要處理數據的人士想要學習,主要有兩大類:


  • 財經類、統計類背景人員,他們的日常工作有大量數據需要處理、分析,但對於學習使用計算機領域的編程語言Python又感到無從下手。

  • 一些想要學習Python的計算機人員,他們工作較忙,沒有太多時間通過互聯網去系統學習Python數據技術


針對這兩類人員的需求,《利用Python進行數據分析》第2版是很好的選擇。下面我們結合本書內容,大致介紹下如何利用Python進行數據分析。




01 Python數據分析流程及學習路徑


數據分析的流程概括起來主要是:讀寫處理計算分析建模可視化四個部分。在不同的步驟中會用到不同的Python工具。每一步的主題也包含衆多內容。




根據每個部分需要用到的工具,Python數據分析的學習路徑如下:




02 利用Python讀寫數據


Python讀寫數據,主要包括以下內容:



我們以一小段代碼來看:



可見,僅需簡短的兩三行代碼即可實現Python讀入EXCEL文件。



03 利用Python處理和計算數據



在第一步和第二步,我們主要使用的是Python的工具庫NumPy和pandas。其中,NumPy主要用於矢量化的科學計算,pandas主要用於表型數據處理。


▲NumPy


▲pandas



04 利用Python分析建模



在分析和建模方面,本書主要介紹了Statsmdels和Scikit-learn兩個庫。


.Statsmodels允許用戶瀏覽數據,估計統計模型和執行統計測試。可以爲不同類型的數據和每個估算器提供廣泛的描述性統計,統計測試,繪圖函數和結果統計列表。


.Statsmodels


Scikit-leran則是著名的機器學習庫,可以迅速使用各類機器學習算法。


▲Scikit-leran



05 利用Python數據可視化



數據可視化是數據工作中的一項重要內容,它可以輔助分析也可以展示結果。本書主要介紹了Python衆多可視化庫中最爲主流的Matplotlib:




06 總結:爲什麼要選這本書


《利用Python進行數據分析》第2版原作者是美國的數據科學家Wes McKinney,他畢業於麻省理工學院,是大名鼎鼎的Python數據技術類庫pandas的創始人,在多家投資銀行從事過數據科學類的工作。本書第一版由Wes McKinney寫於2010年,經過7年的技術發展,第一版中的部分技術已不再適用,因此他於2017年發表了本書的第二版,對書中的大量技術、代碼、示例進行了更新。由於本書大受好評,國內旋即引進。


關於作者:徐敬一,是《利用Python進行數據分析》第2版的譯者,中國工商銀行的數據分析師,他在工作中大量使用各類Python數據技術,對於Python的數學科學技術棧十分了解,同時英語水平良好,使本書的翻譯質量得以保證。


推薦語:適合剛學Python的數據分析師或剛學數據科學以及科學計算的Python編程者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整數據集的完整說明。


👆這本經典的書,抽獎送一本👇


本文分享自微信公衆號 - 凹凸數據(alltodata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章