什麼是(監督)機器學習?簡而言之,它是以下幾點:
- ML系統學習如何組合輸入以產生對從未見過的數據的有用預測。
標籤
一個標籤是我們預測物品的屬性,比如變量y
在簡單線性迴歸變量。標籤可以是小麥的未來價格,圖片中顯示的動物的種類,音頻剪輯的含義或任何東西。
特徵
一個特徵是一個輸入變量 -x
簡單線性迴歸中的變量。一個簡單的機器學習項目可能會使用單一功能,而更復雜的機器學習項目可能會使用數百萬個功能,具體如下:
- 電子郵件中的文字
- 寄件人地址
- 發送電子郵件的時間
- 電子郵件包含短語“一個奇怪的把戲”。
例子
一個例子是數據的特定實例x。(我們把 X粗體,以表明它是一個載體。)我們分手的例子分爲兩類:- 標記的例子
- 未標記的例子
labeled examples: {features, label}: (x, y)
使用標記的示例來訓練模型。在我們的垃圾郵件檢測器示例中,標記的示例將是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的單個電子郵件。
例如,下表顯示了來自 包含加利福尼亞州房價信息的數據集中的 5個標記示例:
住房中醫年齡 (功能) | totalRooms (功能) | totalBedrooms (功能) | medianHouseValue (標籤) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
unlabeled examples: {features, ?}: (x, ?)
一旦我們用標記示例對我們的模型進行了訓練,我們就可以使用該模型來預測未標記示例上的標籤。在垃圾郵件檢測器中,未標記的示例是人類尚未標記的新電子郵件。
模型
模型定義了要素和標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些功能強烈地與“垃圾郵件”相關聯。讓我們強調模型的兩個階段:- 訓練意味着創造或學習模型。也就是說,您將顯示標有示例的模型,並使模型逐漸學習特徵與標籤之間的關係。
- 預測意味着將訓練的模型應用於未標記的例子。也就是說,你使用訓練好的模型進行有用的預測(
y'
)。例如,在推理過程中,您可以預測medianHouseValue
新的未標記示例。
迴歸與分類
一個迴歸模型預測連續值。例如,迴歸模型預測回答如下問題:- 加州的房子價值是多少?
- 用戶點擊此廣告的概率是多少?
- 給定的電子郵件是垃圾郵件還是垃圾郵件?
- 這是一隻狗,一隻貓還是一隻倉鼠的圖像?
查看原文:http://www.mtcnn.com/?p=109