【機器學習00】【簡介】

1.機器學習簡介

1.0引入

前IBM員工Samuel寫了一個西洋棋程序(爲什麼總是棋類)。這個程序就具有“自我學習能力‘,能夠在對戰中提高自己的能力。
以及最近幾年世人皆知的AlphaGo。都是機器學習系統

1.1概念

經典的定義:A program can be said to learn from experience with respect to some class of tasks and performance measure , if it’s performance at tasks in, as measured by ,improves with experience—Tom Mitchell
通俗的理解;如果一個程序在使用已有的經驗執行某一個任務的過程中,被認爲是具備學習能力的,那麼他就具有能夠利用現有的經驗不斷改善自身完成此任務的性能特質。

重點:已有的經驗,具備學習能力的程序。完成某一任務。不斷提高的性能。
因此在這樣一個系統中,必須具備的要素是:經驗(E),任務(T),性能(P)

1.2機器學習系統的特點

從西洋棋到圍棋,這樣的機器學習系統都具有一定的特點:
(1)這類系統解決的都是無法直接用固定規則解決的問題
(2)具有學習能力。這裏的學習能力指的是此類系統可以從經歷和數據中學習到經驗和教訓,從而面對未來的任務的能力—對未來的預測能力稱爲泛化力(generalization)
(3)具備不斷改善自身應對具體任務的能力—性能

1.3從機器學習系統的三個要素理解機器學習

1.3.1任務 TASKS
任務種類很多,經典的有監督學習和無監督學習。
(1)監督學習:側重於對事物未知表現得預測
可以認爲,監督學習是利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程。訓練完成後,可以利用結果進行未知事物得預測。
監督學習一般分爲兩類:分類和迴歸
①分類:對一個事物所在的類別進行預測。此方法的缺點是此事物必須要屬於某個已知的類別。如果是一個全新類別,就無法進行準確分類
②迴歸:其實也是一個預測問題,但是目標一般是一個連續的目標。例如:一個房子的房價很可能和樓層a,地鐵距離b,面積c等有關。那麼房價p就是一個關於a,b,c的一個量。一般來說是會能夠有一個式子聯繫起來的。

(2)無監督學習:側重於事物本身的特性
對於一些沒有進行標記(未知類別的數據或事物),進行事物特性的分析。對相似的特性進行類別的劃分。
①數據降維:對數據特性進行壓縮和篩選。例如一個識別人臉的任務,直接將所有像素信息進行對比是非常困難的。不過如果使用數據降維的技術,抽取關鍵數據,則可以減少很多工作量。

  • Wiki:在機器學習和統計學領域,降維是指在某些限定條件下,降低隨機變量個數,得到一組“不相關”主變量的過程
  • 降維可進一步細分爲變量選擇和特徵提取兩大方法
  • 進一步解釋變量選擇和特徵提取:前者是假定數據中包含大量冗餘或無關變量(或稱特徵、屬性、指標等),旨在從原有變量中找出主要變量。後者是特徵提取可以看作變量選擇方法的一般化:變量選擇假設在原始數據中,變量數目浩繁,但只有少數幾個真正起作用;而特徵提取則認爲在所有變量可能的函數(比如這些變量各種可能的線性組合)中,只有少數幾個真正起作用。

②聚類
依賴數據的相似性,將相似的數據樣本劃分爲一個簇

1.3.2經驗
(1)通常就是我們採集到的數據,對於預測類問題,數據分成了 訓練集(training set)和 測試集(testing set),兩者是互斥的。即一條數據不能同時出現在兩個集合中。另外,對於監督學習的任務上,數據通常分爲 特徵(Feature)和標記/目標(label/target)。即特徵和所處類別。(如果是迴歸分析就是自變量和因變量)

(2)對於經驗(數據)來說,通常會存在大量的不同種數據類型,如類別型,數值型,甚至缺失的數據,這些數據需要清洗和處理,在具體的處理環節中稱爲 數據清洗。

1.3.3性能
就是評價完成任務質量的指標。具體表現如下:
(1)預測類型的任務:用正確率來評價性能
(2)迴歸問題:一般會用偏差來衡量,具體不同的任務,偏差計算方法也不盡相同

1.4總結

通過對於機器學習的例子引入,瞭解機器學習系統的特性,以及經典定義。另外從機器學習系統的三個要素:任務、經驗、性能。解釋和進一步學習了機器學習系統的概念。加深了對於機器學習系統的理解。

本文出現的術語有:(可以對照術語進行回顧)
(1)泛化力(generalization):對未來的預測能力
(2)性能(performance):具備不斷改善自身應對任務的能力,這樣的能力成爲性能
(3)監督學習與無監督學習(supervise、unsupervised learning)
(4)分類、迴歸分析、數據降維以及聚類(classification、regression、dimensionality reduction and clustering)
(5)訓練集(training set) 測試集(testing set)
(6)特徵(feature)、標記/目標(label/target)

本人所寫本篇博客參考《Python機器學習及實踐–從零通往kaggle競賽之路》(範淼老師、李超老師),《機器學習》(周志華老師)、斯坦福大學公開課–《機器學習》(吳恩達老師)。
如有侵權或未注意事項,敬請聯繫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章