Python+數據分析+機器學習,數據科學家最少必要知識庫!

我們正處於一個數據科技(Data Technology,DT)時代。在這個時代,我們的一舉一動都能在數據空間留下電子印記,海量的社交、電商、科研大數據撲面而來。然而,太多的數據給人們帶來的,可能並不是更多的洞察,反而是迷失。

僅就數據本身而言,數據是“一無所知”的。數據的價值,在於形成信息,變成知識,乃至昇華爲智慧。也就是說,這些數據如果不能進一步被“深加工”,即使數據量再“大”,也意義甚小。

於是,就派生出這麼一個問題:這些數據,由誰來深加工?

其實,早在2012年,《哈佛商業評論》就刊登了一篇文章並給出了答案,進行數據深加工的人就是“數據科學家”。文章還斷言,數據科學家是21世紀最“性感”的職業。

但如何成爲一名數據科學家呢?尤其是一名“性感”的數據科學家?

埃裏克·萊斯(Eric Ries)曾寫過一本有關創業的書,書名是《精益創業》(The Lean Startup)。這本書中有一個概念深入人心,那就是“最小可行產品”(Minimum Viable Product,MVP)。圍繞這個概念,創業者在創業初期不可貪多求全,而應該先做出一個最小的可用產品,拿到市場上去檢驗,然後根據反饋反覆迭代,打磨升級,最終做出比較完善、比較成功的產品。

後來,有人提出了類似的概念—— *最少必要知識 *(Minimal Actionable Knowledge and Experience,MAKE)。這個概念讓人恍然大悟!“如何成爲一名數據科學家”這個問題的答案也幾乎呼之欲出——You can MAKE it!

最少必要知識

先來說說什麼是MAKE。它指的是入門某個新領域切實可行的最小知識集合。MAKE說起來好像比較高級,但實際上,它背後有一個支撐它的樸素原則——Pareto原則(亦稱80-20原則),即80%的工作問題可以通過掌握20%的知識來解決。

同樣,想成爲一名“性感”的數據科學家,一條路自然是按部就班地學習所有技能——十年磨一劍,但這樣做的風險在於,當你“攜劍下山”時,別人可能已經用上了飛機、大炮。這樣的對壘,你勝算幾何?

其實還有另一條備選之路,那就是走一走MAKE之道。

在學習某項技能(如Python、數據分析、機器學習)時,我們要想辦法在最短的時間內,摸索清楚這項技能的“最少必要知識”。一方面,它已然可以幫我們解決工作中的大部分問題;另一方面,入門之後,技能的提升通道可以在實踐中尋得,缺啥補啥。有明確的任務導向,學習就會有如神助,這也是當前時代的快節奏學習法。

數據科學的“最少必要知識”

《Python極簡講義:一本書入門數據分析與機器學習》一書的定位就是,爲初學者提供關於數據科學的“最少必要知識”,從而讓你獲得那份最“性感”的工作。這些知識包含了成爲數據科學家所需要掌握的基礎內容——

  • Python編程

  • 數據分析

  • 機器學習

/ 張玉宏 著 /

這本書共分10章,涉及的知識點很多,但精而不雜,層層遞進。就像上面所提到的,這些知識點就是入門數據分析與機器學習的“最少必要知識”。按照大的範圍來看,這本書涉及的內容大概可以分爲三個維度:Python語法及技巧、數據分析必備技能、機器學習相關知識。

具體來說,每一章的內容簡介如下。

※ 第1章 初識Python與Jupyter

Python是最具人氣的編程語言之一,Jupyter是人氣與口碑俱佳的Python開發平臺。本章將介紹Python和Jupyter的基本內容,包括Python的安裝與運行,以及文學化編程利器Jupyter的使用方法。

※ 第2章 數據類型與程序控制結構

本章將介紹Python的基礎語法及常見的數據類型,包括數值型、布爾類型、字符串型、列表、元組、字典、集合等。此外,本章還將介紹三種程序控制結構(順序結構、選擇結構和循環結構)和高效的推導式。

※ 第3章 自建Python模塊與第三方模塊

本章將介紹Python的自定義模塊及常用的第三方模塊,包括collection、datetime、json、random等模塊。

※ 第4章 Python函數

本章將討論Python的函數定義、函數參數(關鍵字參數、可變參數、默認參數等)的“花式”傳遞、函數的遞歸調用,以及函數式編程。

※ 第5章 Python高級特性

本章將介紹Python中的一些高階應用,這些高階應用能讓我們更高效地寫出更專業的Python代碼。本章內容涉及面向對象程序設計思想、生成器與迭代器、文件操作、異常處理及錯誤調試等。

※ 第6章 NumPy向量計算

本章將討論NumPy數組的構建、方法和屬性,介紹NumPy的廣播機制、布爾索引、數組的堆疊,以及愛因斯坦求和約定等。

※ 第7章 Pandas數據分析

Pandas是數據分析的利器,本章將主要介紹Pandas的兩種常用數據處理結構:Series和DataFrame。同時介紹基於Pandas的文件讀取與分析,涉及數據的清洗、條件過濾、聚合與分組等。

※ 第8章 Matplotlib與Seaborn可視化分析

Matplotlib和Seaborn是非常好用的數據可視化包,本章將主要介紹Matplotlib和Seaborn的基本用法,並基於此繪製可視化圖形,包括散點圖、條形圖、直方圖、餅圖等。同時,本章將以谷歌流感趨勢數據爲例,結合Pandas進行可視化分析。

※ 第9章 機器學習初步

本章將主要介紹有關機器學習的初步知識,包括機器學習的定義,機器學習的幾個主要流派,並討論機器學習模型的性能評估指標,包括混淆矩陣、查準率、查全率、P-R曲線、ROC曲線等。

※ 第10章 sklearn與經典機器學習算法

本章將主要講解知名機器學習框架sklearn的用法,並介紹幾種經典機器學習算法的原理和實戰,這些算法包括線性迴歸、k-近鄰算法、Logistics迴歸、神經網絡學習算法、k均值聚類算法等。

通過閱讀這本書,大家不僅可以走好MAKE之道,還能找到一條不錯的人工智能學習曲線!趕緊讀起來吧!

本書作者與行業大咖的精彩對談

由陳開江、林欣、張威、張玉宏、鄭澤宇五位人工智能領域大咖聯手帶來的人工智能學習路線。分享中圍繞人工智能領域的人才培養、入職法則、核心技能、應用落地、未來前景等熱門話題,展開了深入討論,爲大家答疑解惑。並在最後分享了一張寶貴的人工智能學習路線圖。


更多科技資訊請見微信公衆號:博文視點Broadview(微信號:bvbooks)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章