數據分析入門必知：機器學習最通俗的解釋？

原創

2021-03-22 21:37

有人經常會把數據分析與機器學習給搞混掉，機器學習這個主題已經很普遍了，每個人都在談論它，但很少有人能夠透徹地瞭解它，今天老李給大家分享一下機器學習的概念。

數據分析和機器學習

如果你認爲大數據僅僅是關於SQL語句查詢和海量的數據的話，那麼別人也會理解你的，但是大數據真正的目的是通過對數據的推斷，從數據中獲取價值、從數據中發現有用的東西。例如，“如果我降低5%的價格，我將增加10%的銷售量。”

數據分析是最重要的技術，包括如下方面:

機器學習適合於預測性分析。

一個例子說明什麼是機器學習

機器學習是指利用計算機模擬或實現人類的學習行爲。那機器是怎麼學習的呢？我們就舉個相親的例子。現有一妙齡女郎相親，候選人有青年 A、B、C 和 D，四個青年的屬性分別爲：

經過一番篩選，女子將 [A C D] 分爲適合婚戀組，將 [B] 劃分爲不適合婚戀組。上述就是人類的學習過程。

由於相親對象實在過多，妙齡女郎相不過來了，於是她找來機器幫忙。首先，她要培訓下機器，告訴機器如下信息：

機器一番學習，建立起了「屬性」和「標籤」的對應關係，這就是機器學習建模過程。現在有青年 E、F、G …… 的屬性值，妙齡少女把這堆屬性值告訴機器，機器返回哪些是可以繼續發展的對象，哪些是淘汰的對象。

這就是 有監督機器學習 ，即告訴機器訓練數據的「屬性」和「標籤」，機器利用某種算法建立「屬性」和「標籤」的關係，利用該關係，就可以根據新數據的「屬性」得到新數據的「標籤」，如下圖。

垃圾郵件過濾是一個很好的例子，它利用機器學習技術來學習如何從數百萬封郵件中識別垃圾郵件，其中就用到了統計學技術。

例如，如果每100個電子郵件中的85個，其中包括“便宜”和“偉哥”這兩個詞的郵件被認爲是垃圾郵件，我們可以說有85%的概率，確定它是垃圾郵件。並通過其它幾個指標（例如，從來沒給你發送過郵件的人）結合起來，利用數十億個電子郵件進行算法測試，隨着訓練次數不斷增加來提升準確率。

事實上，谷歌表示它現在已經可以攔截99.99%左右的垃圾郵件。

我製作了一份機器學習算法選擇速查表：

這張速查表能幫你從衆多機器學習算法中，針對你自己的具體問題和情況，選出最合適的算法。下面就介紹如何使用這份速查表。

因爲是面向初學者，所以在談到算法時，會盡量做一些最簡單的假設。下文談及的算法也都是衆多數據科學家、機器學習專家和開發者們推薦的結果。

怎樣使用速查表

按照“如果（路徑標籤）就用（算法）”的邏輯，查看速查表上的路徑和算法標籤。例如：

有時我們可能需要不止一個算法，有時可能這些算法沒有一個是最合適的。我和許多數據科學家聊過，他們認爲這種情況下，最保險的做法就是把所有算法都嘗試一遍，找到最合適的那個。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.