Python+數據分析+機器學習，數據科學家最少必要知識庫！

我們正處於一個數據科技（Data Technology，DT）時代。在這個時代，我們的一舉一動都能在數據空間留下電子印記，海量的社交、電商、科研大數據撲面而來。然而，太多的數據給人們帶來的，可能並不是更多的洞察，反而是迷失。

僅就數據本身而言，數據是“一無所知”的。數據的價值，在於形成信息，變成知識，乃至昇華爲智慧。也就是說，這些數據如果不能進一步被“深加工”，即使數據量再“大”，也意義甚小。

於是，就派生出這麼一個問題：這些數據，由誰來深加工？

其實，早在2012年，《哈佛商業評論》就刊登了一篇文章並給出了答案，進行數據深加工的人就是“數據科學家”。文章還斷言，數據科學家是21世紀最“性感”的職業。

但如何成爲一名數據科學家呢？尤其是一名“性感”的數據科學家？

埃裏克·萊斯（Eric Ries）曾寫過一本有關創業的書，書名是《精益創業》（The Lean Startup）。這本書中有一個概念深入人心，那就是“最小可行產品”（Minimum Viable Product，MVP）。圍繞這個概念，創業者在創業初期不可貪多求全，而應該先做出一個最小的可用產品，拿到市場上去檢驗，然後根據反饋反覆迭代，打磨升級，最終做出比較完善、比較成功的產品。

後來，有人提出了類似的概念—— *最少必要知識 *（Minimal Actionable Knowledge and Experience，MAKE）。這個概念讓人恍然大悟！“如何成爲一名數據科學家”這個問題的答案也幾乎呼之欲出——You can MAKE it！

最少必要知識

先來說說什麼是MAKE。它指的是入門某個新領域切實可行的最小知識集合。MAKE說起來好像比較高級，但實際上，它背後有一個支撐它的樸素原則——Pareto原則（亦稱80-20原則），即80%的工作問題可以通過掌握20%的知識來解決。

同樣，想成爲一名“性感”的數據科學家，一條路自然是按部就班地學習所有技能——十年磨一劍，但這樣做的風險在於，當你“攜劍下山”時，別人可能已經用上了飛機、大炮。這樣的對壘，你勝算幾何？

其實還有另一條備選之路，那就是走一走MAKE之道。

在學習某項技能（如Python、數據分析、機器學習）時，我們要想辦法在最短的時間內，摸索清楚這項技能的“最少必要知識”。一方面，它已然可以幫我們解決工作中的大部分問題；另一方面，入門之後，技能的提升通道可以在實踐中尋得，缺啥補啥。有明確的任務導向，學習就會有如神助，這也是當前時代的快節奏學習法。

數據科學的“最少必要知識”

《Python極簡講義：一本書入門數據分析與機器學習》一書的定位就是，爲初學者提供關於數據科學的“最少必要知識”，從而讓你獲得那份最“性感”的工作。這些知識包含了成爲數據科學家所需要掌握的基礎內容——

Python編程
數據分析
機器學習

/ 張玉宏著 /

這本書共分10章，涉及的知識點很多，但精而不雜，層層遞進。就像上面所提到的，這些知識點就是入門數據分析與機器學習的“最少必要知識”。按照大的範圍來看，這本書涉及的內容大概可以分爲三個維度：Python語法及技巧、數據分析必備技能、機器學習相關知識。

具體來說，每一章的內容簡介如下。

※ 第１章　初識Python與Jupyter

Python是最具人氣的編程語言之一，Jupyter是人氣與口碑俱佳的Python開發平臺。本章將介紹Python和Jupyter的基本內容，包括Python的安裝與運行，以及文學化編程利器Jupyter的使用方法。

※ 第2章　數據類型與程序控制結構

本章將介紹Python的基礎語法及常見的數據類型，包括數值型、布爾類型、字符串型、列表、元組、字典、集合等。此外，本章還將介紹三種程序控制結構（順序結構、選擇結構和循環結構）和高效的推導式。

※ 第3章　自建Python模塊與第三方模塊

本章將介紹Python的自定義模塊及常用的第三方模塊，包括collection、datetime、json、random等模塊。

※ 第4章　Python函數

本章將討論Python的函數定義、函數參數（關鍵字參數、可變參數、默認參數等）的“花式”傳遞、函數的遞歸調用，以及函數式編程。

※ 第5章　Python高級特性

本章將介紹Python中的一些高階應用，這些高階應用能讓我們更高效地寫出更專業的Python代碼。本章內容涉及面向對象程序設計思想、生成器與迭代器、文件操作、異常處理及錯誤調試等。

※ 第6章　NumPy向量計算

本章將討論NumPy數組的構建、方法和屬性，介紹NumPy的廣播機制、布爾索引、數組的堆疊，以及愛因斯坦求和約定等。

※ 第7章　Pandas數據分析

Pandas是數據分析的利器，本章將主要介紹Pandas的兩種常用數據處理結構：Series和DataFrame。同時介紹基於Pandas的文件讀取與分析，涉及數據的清洗、條件過濾、聚合與分組等。

※ 第8章　Matplotlib與Seaborn可視化分析

Matplotlib和Seaborn是非常好用的數據可視化包，本章將主要介紹Matplotlib和Seaborn的基本用法，並基於此繪製可視化圖形，包括散點圖、條形圖、直方圖、餅圖等。同時，本章將以谷歌流感趨勢數據爲例，結合Pandas進行可視化分析。

※ 第9章　機器學習初步

本章將主要介紹有關機器學習的初步知識，包括機器學習的定義，機器學習的幾個主要流派，並討論機器學習模型的性能評估指標，包括混淆矩陣、查準率、查全率、P-R曲線、ROC曲線等。

※ 第10章　sklearn與經典機器學習算法

本章將主要講解知名機器學習框架sklearn的用法，並介紹幾種經典機器學習算法的原理和實戰，這些算法包括線性迴歸、k-近鄰算法、Logistics迴歸、神經網絡學習算法、k均值聚類算法等。

▼

通過閱讀這本書，大家不僅可以走好MAKE之道，還能找到一條不錯的人工智能學習曲線！趕緊讀起來吧！

本書作者與行業大咖的精彩對談

由陳開江、林欣、張威、張玉宏、鄭澤宇五位人工智能領域大咖聯手帶來的人工智能學習路線。分享中圍繞人工智能領域的人才培養、入職法則、核心技能、應用落地、未來前景等熱門話題，展開了深入討論，爲大家答疑解惑。並在最後分享了一張寶貴的人工智能學習路線圖。

更多科技資訊請見微信公衆號：博文視點Broadview（微信號：bvbooks）

Python+數據分析+機器學習，數據科學家最少必要知識庫！

企業CIO都要知道的數據中臺建設五步法，用友大神十二講就搞定

區塊鏈的本質是什麼？寫給區塊鏈的未來十年

這個夏天不能錯過的IT經典好書大盤點

五步法建設你的數據中臺

Get不到AI的點？一定要看《程序員的AI書：從代碼開始》！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結