Google內部培訓過1.8萬人的機器學習速成課

什麼是(監督)機器學習?簡而言之,它是以下幾點:
  • ML系統學習如何組合輸入以產生對從未見過的數據的有用預測。
我們來探討基本的機器學習術語。

標籤

一個標籤是我們預測物品的屬性,比如變量y在簡單線性迴歸變量。標籤可以是小麥的未來價格,圖片中顯示的動物的種類,音頻剪輯的含義或任何東西。

特徵

一個特徵是一個輸入變量 - x簡單線性迴歸中的變量。一個簡單的機器學習項目可能會使用單一功能,而更復雜的機器學習項目可能會使用數百萬個功能,具體如下:
{X1,X2,。。。Xñ}
在垃圾郵件檢測器示例中,功能可能包括以下內容:
  • 電子郵件中的文字
  • 寄件人地址
  • 發送電子郵件的時間
  • 電子郵件包含短語“一個奇怪的把戲”。

例子

一個例子是數據的特定實例x。(我們把 X粗體,以表明它是一個載體。)我們分手的例子分爲兩類:
  • 標記的例子
  • 未標記的例子
標記的例子包括(多個)特徵和標籤。那是: labeled examples: {features, label}: (x, y) 使用標記的示例來訓練模型。在我們的垃圾郵件檢測器示例中,標記的示例將是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的單個電子郵件。 例如,下表顯示了來自 包含加利福尼亞州房價信息的數據集中的 5個標記示例:
住房中醫年齡 (功能) totalRooms (功能) totalBedrooms (功能) medianHouseValue (標籤)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500
一個未標記的例子包含的特徵,但不是標籤,如下:   unlabeled examples: {features, ?}: (x, ?) 一旦我們用標記示例對我們的模型進行了訓練,我們就可以使用該模型來預測未標記示例上的標籤。在垃圾郵件檢測器中,未標記的示例是人類尚未標記的新電子郵件。

模型

模型定義了要素和標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些功能強烈地與“垃圾郵件”相關聯。讓我們強調模型的兩個階段:
  • 訓練意味着創造或學習模型。也就是說,您將顯示標有示例的模型,並使模型逐漸學習特徵與標籤之間的關係。
  • 預測意味着將訓練的模型應用於未標記的例子。也就是說,你使用訓練好的模型進行有用的預測(y')。例如,在推理過程中,您可以預測medianHouseValue新的未標記示例。

迴歸與分類

一個迴歸模型預測連續值。例如,迴歸模型預測回答如下問題:
  • 加州的房子價值是多少?
  • 用戶點擊此廣告的概率是多少?
一個分類模型預測離散值。例如,分類模型可以做出預測來回答以下問題:
  • 給定的電子郵件是垃圾郵件還是垃圾郵件?
  • 這是一隻狗,一隻貓還是一隻倉鼠的圖像?
關鍵術語

查看原文:http://www.mtcnn.com/?p=109
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章