在數據科學領域中,你需要多少數學知識?

導語:數學是萬物之母。
譯者:AI研習社(話左
雙語原文鏈接:How Much Math do you need in Data Science?


I. 引言

如果你有心學習數據科學,那麼你一定會在腦海中想過下面的問題:

沒有或者只有很少的數學知識,我能做一個數據科學家嗎?

數據科學必需的數學工具有哪些?

有很多優秀的包可用於建立預測模型或者數據可視化。其中最常用的用於描述和預測分析的一些包有:

  • Ggplot2

  • Matplotlib

  • Seaborn

  • Scikit-learn

  • Caret

  • TensorFlow

  • PyTorch

  • Keras

多虧了這些包,任何人都可以建立起一個模型或者實現數據可視化。然而, 堅實的數學基礎對於修改你的模型讓你的模型性能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用於數據驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因爲這樣你纔不是簡單地只是把這些包作爲一個黑盒來使用。

II. 案例學習:建立多重回歸模型

假設我們要建立一個多重回歸模型。在此之前,我們需要問一下自己下面的這些問題:

我的數據集有多大?

我的特徵變量和目標變量是什麼?

什麼預測特徵與目標變量關聯性最大?

什麼特徵是重要的?

我需要量化特徵值嗎?

我的數據集應該如何分成訓練集和測試集?

什麼是主成分分析(PCA)

我應該用PCA移除多餘特徵嗎?

我要如何評估我的模型?用R2,MSE還是MAE?

我應該如何提升模型預測的能力?

我應該使用正則化的迴歸模型嗎?

什麼是迴歸係數?

什麼是截距?

我應該使用諸如K近鄰迴歸或者支持向量迴歸這種非參數迴歸模型嗎?

我的模型中有哪些超參數,如何對其進行微調以獲得性能最佳的模型?

沒有良好的數學背景,你就無法解決上面提到的問題。 最重要的是,在數據科學和機器學習中,數學技能與編程技能同等重要。 因此,作爲有志於數據科學的人,你必須花時間研究數據科學和機器學習的理論和數學基礎。 你構建可應用於實際問題的可靠而有效的模型的能力取決於您的數學基礎。

現在我們來聊聊數據科學還有機器學習所必需的一些數學工具。

III. 數據科學與機器學習必需的數學工具

1. 統計與概率

統計與概率學可用於特徵的可視化,數據預處理,特徵轉換,數據插入,降維,特徵工程,模型評估等。

這裏是你需要熟悉的概念:均值,中位數,衆數,標準差/方差, 相關係數和協方差矩陣,概率分佈(二項,泊松,正太), p-值, 貝葉斯理論(精確性,召回率,陽性預測值,陰性預測值,混淆矩陣,ROC曲線), 中心極限定理, R_2值, 均方誤差(MSE),A/B測試,蒙特卡洛模擬。

2. 多元微積分

大多數機器學習模型都是由帶有許多特徵或者預測因子的數據集建立的。因此,熟悉多元微積分對於建立機器學習模型及其重要。

這裏是你需要熟悉的概念:多元函數;導數和梯度; 階躍函數,Sigmoid函數, Logit函數, ReLU(整流線性單元)函數;損失函數;函數作圖;函數最大最小值。

3. 線性代數

線性代數是機器學習中最重要的數學工具。 數據集通常都表示爲矩陣。 線性代數常用於數據預處理,數據轉換,降維和模型評估。

這裏是你需要熟悉的概念:向量;向量的範數;矩陣;矩陣轉置;矩陣的逆;矩陣的行列式;矩陣的跡;點積;特徵值;特徵向量

4. 優化方法

大多數機器學習算法通過最小化目標函數來建立預測模型,由此學習應用於測試數據的權重以獲得預測的標籤。

這裏是你需要熟悉的概念:損失函數/目標函數;似然函數;誤差函數;梯度下降算法及其衍生(如隨機梯度下降)

IV. 總結與結論

總之,我們已經討論了數據科學和機器學習所需的基本數學和理論技能。 有幾門免費的在線課程可以教你數據科學和機器學習所必需的數學知識。 作爲有志於數據科學的人,請記住,數據科學的理論基礎對於構建高效且可靠的模型至關重要。 因此,您應該投入足夠的時間來研究每種機器學習算法背後的數學理論。

V. 參考文獻

初學者的線性迴歸基礎

使用R實現主成分分析的數學原理

機器學習教程


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,爲AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成爲中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章