深入瞭解機器學習主要術語

1 什麼是(監督式)機器學習?

簡單來說,它的定義如下:
機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。
下面我們來了解一下機器學習的基本術語。

2 標籤

標籤是我們要預測的事物,即簡單線性迴歸中的 y 變量。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何事物。

3 特徵

特徵是輸入變量,即簡單線性迴歸中的 x 變量。簡單的機器學習項目可能會使用單個特徵,而比較複雜的機器學習項目可能會使用數百萬個特徵,按如下方式指定:
在這裏插入圖片描述
在垃圾郵件檢測器示例中,特徵可能包括:

  • 電子郵件文本中的字詞
  • 發件人的地址
  • 發送電子郵件的時段
  • 電子郵件中包含“一種奇怪的把戲”這樣的短語。

4 樣本

樣本是指數據的特定實例:x。(我們採用粗體 x 表示它是一個矢量。)我們將樣本分爲以下兩類:

  • 有標籤樣本
  • 無標籤樣本

有標籤樣本同時包含特徵和標籤。即:

  labeled examples: {features, label}: (x, y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的各個電子郵件。

例如,下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的 5 個有標籤樣本:
在這裏插入圖片描述

無標籤樣本包含特徵,但不包含標籤。即:

  unlabeled examples: {features, ?}: (x, ?)

在使用有標籤樣本訓練了我們的模型之後,我們會使用該模型來預測無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是用戶尚未添加標籤的新電子郵件。

5 模型

模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯繫起來。我們來重點介紹一下模型生命週期的兩個階段:

  • 訓練表示創建或學習模型。也就是說,您向模型展示有標籤樣本,讓模型逐漸學習特徵與標籤之間的關係。
  • 推斷表示將訓練後的模型應用於無標籤樣本。也就是說,您使用訓練後的模型來做出有用的預測 (y')。例如,在推斷期間,您可以針對新的無標籤樣本預測 medianHouseValue

6 迴歸與分類

迴歸模型可預測連續值。例如,迴歸模型做出的預測可回答如下問題:

  • 加利福尼亞州一棟房產的價值是多少?
  • 用戶點擊此廣告的概率是多少?

分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:

  • 某個指定電子郵件是垃圾郵件還是非垃圾郵件?
  • 這是一張狗、貓還是倉鼠圖片?

7 練習題

假設您想開發一種監督式機器學習模型來預測指定的電子郵件是“垃圾郵件”還是“非垃圾郵件”。以下哪些表述正確?(多選題)

  1. 主題標頭中的字詞適合做標籤。
  2. 有些標籤可能不可靠。
  3. 我們將使用無標籤樣本來訓練模型。
  4. 未標記爲“垃圾郵件”或“非垃圾郵件”的電子郵件是無標籤樣本。

答案是 2,4。
解析:

  1. 主題標頭中的字詞可能是優質特徵,但不適合做標籤。
  2. 此數據集的標籤可能來自將特定電子郵件標記爲垃圾郵件的電子郵件用戶。由於很少的用戶會將每一封可疑的電子郵件都標記爲垃圾郵件,因此我們可能很難知道某封電子郵件是否是垃圾郵件。此外,有些垃圾內容發佈者或殭屍網絡可能會故意提供錯誤標籤來誤導我們的模型。
  3. 我們將使用有標籤樣本來訓練模型。然後,我們可以對無標籤樣本運行訓練後的模型,以推理無標籤的電子郵件是垃圾郵件還是非垃圾郵件。
  4. 由於我們的標籤由“垃圾郵件”和“非垃圾郵件”這兩個值組成,因此任何尚未標記爲垃圾郵件或非垃圾郵件的電子郵件都是無標籤樣本。

假設一家在線鞋店希望創建一種監督式機器學習模型,以便爲用戶提供合乎個人需求的鞋子推薦。也就是說,該模型會向小馬推薦某些鞋子,而向小美推薦另外一些鞋子。以下哪些表述正確?(多選題)

  1. 用戶點擊鞋子描述的次數是一項實用特徵。
  2. 鞋碼是一項實用特徵。
  3. 用戶喜歡的鞋子是一種實用標籤。
  4. 鞋的美觀程度是一項實用特徵。

答案是 1,2。
解析:

  1. 用戶可能只是想要詳細瞭解他們喜歡的鞋子。因此,用戶點擊次數是可觀察且可量化的指標,可用來訓練合適的標籤。
  2. 鞋碼是一種可量化的標誌,可能對用戶是否喜歡推薦的鞋子有很大影響。例如,如果小馬穿 43 碼的鞋,則該模型不應該推薦 39 碼的鞋。
  3. 喜好不是可觀察且可量化的指標。我們能做到最好的就是針對用戶的喜好來搜索可觀察的代理指標。
  4. 合適的特徵應該是具體且可量化的。美觀程度是一種過於模糊的概念,不能作爲實用特徵。美觀程度可能是某些具體特徵(例如樣式和顏色)的綜合表現。樣式和顏色都比美觀程度更適合用作特徵。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章