Author:kevinelstri
DateTime:2017/3/14
1、機器學習是什麼?
Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
Arthur Samuel:在進行特定編程的情況下,給予計算機學習能力的領域。
Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
Tom Mitchell:一個程序被認爲能從經驗E中學習,解決任務T,達到性能度量值P,當且僅當,有了經驗E後,經過P評判,程序在處理T時的性能有所提升。
- E(Experience):程序進行上萬次的自我學習的經驗
- T(Task):完成某項工作
- P(Performance):這項工作完成的概率,好壞
2、監督學習
案例1:Housing price prediction(迴歸問題)
說明:
橫軸表示房子的面積,單位是平方英尺,縱軸表示房價,單位是千美元。
問題:
假如你的朋友有一套750平方英尺房子,希望把房子賣掉,能賣多少錢?
方法1:
擬合一條直線,可以推測這套房子可以賣$150,000
方法2:
使用二次方程來擬合,效果可能會更好,此時可以預測這套房子可以賣$200,000
案例2:Breast cancer(malignant,benign)(分類問題)
說明:
橫軸表示腫瘤的大小,縱軸標出0和1,表示是或不是惡性腫瘤。如果是惡性腫瘤,標記爲1,如果不是惡性,或者說是良性,標記爲0.
問題:
如果一個朋友查出是乳腺腫瘤,那麼根據她的乳腺腫瘤的大小就可以估算她的腫瘤是良性的還是惡性的概率。
討論:
此時離散的輸出值只有兩個:0或1,良性或惡性;而事實上分類問題中,輸出可能不止兩個值,可能有三種乳腺癌,那就可以表示爲:0–良性,1–第一類乳腺癌,2–第二類乳腺癌,3–第三類乳腺癌
案例3:多特徵分類
說明:
總共5種不同的特徵,座標軸上的2種和右邊的3種.
問題:
在實際的學習問題中,可能不僅僅只有這麼幾種特徵,可能會有無限多種特徵,那麼你就需要利用這些大量的特徵進行學習,推測相關的結果。那該怎麼處理無限多個特徵,甚至怎麼存儲這些特徵都將存在問題。
方法:
支持向量機,就具有一個巧妙地數學技巧,能讓計算機處理無線多個特徵。
3、非監督學習
案例1:監督性學習和非監督性學習的區別
說明:
在左圖的數據集中,每條數據都已經被標記爲陰性或陽性,也就是良性或惡性腫瘤,所以對於監督學習,就是已知訓練集對應的答案,也就是良性或惡性。
在右圖的數據集中,所有的數據看起來都是一樣的,沒有任何的標籤或者是有相同的標籤或者就是沒標籤,這就是無監督學習,從一堆無標籤的數據中進行對數據分類,分成兩個不同的簇,叫做聚類算法。
案例2:基因序列
說明:
這是一個DNA微觀數據的例子,基本思想就是輸入一組不同個體,對其中的每個個體,要分析出它們是否有一個特定的基因,分析多少特定的基因已經表達,所以這些顏色就顯示了相應的程度,即不同的個體是否有一個特定的基因。運用聚類算法,就可以把個體聚類到不同的類或不同類型的組。
案例3:雞尾酒宴會
說明:
麥克風記錄下兩個不同的聲音,雖然是同樣的兩個人說話,但是聽起來兩份聲音疊加起來,就產生了重疊的聲音。將這個聲音進行分離,就需要使用無監督的聚類算法。
分析:
對於這個問題,似乎是爲了構建一個應用,首先需要處理音頻,使用處理音頻的庫,才能將其分離開。
而實際上,對於這個算法問題只需要一行代碼就可以實現:[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’)
討論:
本次課程使用Octave編程環境,Octave是免費的開源軟件。