原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf
爲了使我們的住宅更有趣,我們可以考慮一個稍微更豐富的數據集,我們也知道每個房間的臥室數量:
2104 | 3 | 400 |
1600 | 3 | 330 |
2400 | 3 | 369 |
1416 | 2 | 232 |
3000 | 4 | 540 |
此處的輸入特徵是一個在空間的二維向量,例如就是訓練集中第個房屋的面積,而就是訓練集中第個房屋的臥室數目。(通常來說,設計一個學習算法的時候,選擇哪些輸入特徵都取決於你,所以當你在波特蘭收集房屋的信息數據時,也完全可以選擇包含其他的特徵,例如房屋是否有壁爐,衛生間的數量等等。關於特徵篩選的內容會在後面的章節進行更詳細的介紹,不過目前來說就暫時先用給定的這兩個特徵了。)
要進行這個監督學習任務,我們必須得決定如何在計算機裏面對這個函數/假設進行表示。作爲起始的選擇,我們把近似爲一個以爲變量的線性函數(linear function):
這裏的是參數(parameters),也被叫作權重(weights),用來參數化從到的線性函數映射空間。爲了避免混淆,我們可以把裏面的省略掉,簡寫成。爲了簡化符號,我們還引入了約定使
(即截距項 intercept term),因此:
等式右邊的和都是向量,等式中的 是輸入的特徵變量的個數(不包括)。
現在,給定了一個訓練集了,咱們怎麼來挑選/學習參數呢?一個看上去比較合理的方法就是讓儘量逼近,至少對已有的訓練樣本能適用。用公式的方式來表示的話,就要定義一個函數,來衡量對於每個不同的值,預測值與實際對應的有多接近。我們據此定義了一個 成本函數 (cost function),有的中文文獻亦稱之爲代價函數:
如果之前你接觸過線性迴歸,你會發現這個函數和 普通最小二乘法(ordinary least squares) 擬合模型中的最小二乘法成本函數非常相似。不管你之前是否接觸過它,我們先繼續往下看,以後就會發現這是一個更廣泛的算法家族中的一個特例。