問題構建 (Framing):機器學習

什麼是(監督式)機器學習?簡單來說,它的定義如下:

機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。
下面我們來了解一下機器學習的基本術語。

標籤

標籤是我們要預測的事物,即簡單線性迴歸中的 y 變量。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何事物。

特徵

特徵是輸入變量,即簡單線性迴歸中的 x 變量。簡單的機器學習項目可能會使用單個特徵,而比較複雜的機器學習項目可能會使用數百萬個特徵,按如下方式指定:
在這裏插入圖片描述
合適的特徵應該是具體且可量化的
在垃圾郵件檢測器示例中,特徵可能包括:

  • 電子郵件文本中的字詞
  • 發件人的地址
  • 發送電子郵件的時段
  • 電子郵件中包含“一種奇怪的把戲”這樣的短語。

樣本

樣本是指數據的特定實例:x。(我們採用粗體 x 表示它是一個矢量。)我們將樣本分爲以下兩類:

  • 有標籤樣本
  • 無標籤樣本

有標籤樣本同時包含特徵和標籤。即:

  labeled examples: {features, label}: (x, y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的各個電子郵件。

例如,下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的 2 個有標籤樣本:

housingMedianAge totalRooms totalBedrooms medianHouseValue
特徵 特徵 特徵 標籤
15 5612 1901 80100
19 7650 1901 80100

無標籤樣本包含特徵,但不包含標籤。即:

  unlabeled examples: {features, ?}: (x, ?)

以下是取自同一住房數據集的 3 個無標籤樣本,其中不包含 medianHouseValue:

housingMedianAge totalRooms totalBedrooms
特徵 特徵 特徵
42 1686 361
34 1226 180

在使用有標籤樣本訓練模型之後,我們會使用該模型預測無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是用戶尚未添加標籤的新電子郵件。

模型

模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯繫起來。我們來重點介紹一下模型生命週期的兩個階段:

  • 訓練是指創建或學習模型。也就是說,向模型展示有標籤樣本,讓模型逐漸學習特徵與標籤之間的關係。
  • 推斷是指將訓練後的模型應用於無標籤樣本。也就是說,使用經過訓練的模型做出有用的預測
    (y’)。例如,在推斷期間,您可以針對新的無標籤樣本預測 medianHouseValue。

迴歸與分類

迴歸模型可預測連續值。例如,迴歸模型做出的預測可回答如下問題:

  • 加利福尼亞州一棟房產的價值是多少?
  • 用戶點擊此廣告的概率是多少?

分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:

  • 某個指定電子郵件是垃圾郵件還是非垃圾郵件?
  • 這是一張狗、貓還是倉鼠圖片?

線性迴歸

在這裏插入圖片描述
在這裏插入圖片描述

訓練與損失

簡單來說,訓練模型表示通過有標籤樣本來學習(確定)所有權重和偏差的理想值。在監督式學習中,機器學習算法通過以下方式構建模型:檢查多個樣本並嘗試找出可最大限度地減少損失的模型;這一過程稱爲經驗風險最小化。
損失是對糟糕預測的懲罰。也就是說,損失是一個數值,表示對於單個樣本而言模型預測的準確程度。如果模型的預測完全準確,則損失爲零,否則損失會較大。訓練模型的目標是從所有樣本中找到一組平均損失“較小”的權重和偏差。例如,圖 3 左側顯示的是損失較大的模型,右側顯示的是損失較小的模型。關於此圖,請注意以下幾點:

  • 紅色箭頭表示損失。
  • 藍線表示預測。
    在這裏插入圖片描述
    請注意,左側曲線圖中的紅色箭頭比右側曲線圖中的對應紅色箭頭長得多。顯然,相較於左側曲線圖中的藍線,右側曲線圖中的藍線代表的是預測效果更好的模型。
    您可能想知道自己能否創建一個數學函數(損失函數),以有意義的方式彙總各個損失。

平方損失:一種常見的損失函數

接下來我們要看的線性迴歸模型使用的是一種稱爲平方損失(又稱爲 L2 損失)的損失函數。單個樣本的平方損失如下:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

在這裏插入圖片描述

來自Google

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章