机器学习（二）——线性回归（Linear Regression）

原創

2020-02-24 20:30

原文：http://cs229.stanford.edu/notes/cs229-notes1.pdf

为了使我们的住宅更有趣，我们可以考虑一个稍微更丰富的数据集，我们也知道每个房间的卧室数量：

$Living\, area(feet^{2})$
2104	3	400
1600	3	330
2400	3	369
1416	2	232
3000	4	540
$\vdots$	$\vdots$	$\vdots$

此处的输入特征是一个在 $R^{2}$ 空间的二维向量，例如 $x_{1}^{i}$ 就是训练集中第个房屋的面积，而 $x_{2}^{i}$ 就是训练集中第个房屋的卧室数目。（通常来说，设计一个学习算法的时候，选择哪些输入特征都取决于你，所以当你在波特兰收集房屋的信息数据时，也完全可以选择包含其他的特征，例如房屋是否有壁炉，卫生间的数量等等。关于特征筛选的内容会在后面的章节进行更详细的介绍，不过目前来说就暂时先用给定的这两个特征了。）

要进行这个监督学习任务，我们必须得决定如何在计算机里面对这个函数/假设进行表示。作为起始的选择，我们把近似为一个以为变量的线性函数（linear function）：

这里的 $\theta ^{i}$ 是参数（parameters），也被叫作权重（weights），用来参数化从到的线性函数映射空间。为了避免混淆，我们可以把 $h_{\theta }(x)$ 里面的 $\theta$ 省略掉，简写成。为了简化符号，我们还引入了约定使 $x_{0}=1$

(即截距项 intercept term),因此：

等式右边的 $\theta$ 和都是向量，等式中的是输入的特征变量的个数（不包括 $x_{0}$ ）。

现在，给定了一个训练集了，咱们怎么来挑选/学习参数 $\theta$ 呢？一个看上去比较合理的方法就是让尽量逼近，至少对已有的训练样本能适用。用公式的方式来表示的话，就要定义一个函数，来衡量对于每个不同的 $\theta$ 值，预测值 $h(x^{(i)})$ 与实际对应的 $y^{i}$ 有多接近。我们据此定义了一个成本函数（cost function），有的中文文献亦称之为代价函数：

如果之前你接触过线性回归，你会发现这个函数和普通最小二乘法（ordinary least squares）拟合模型中的最小二乘法成本函数非常相似。不管你之前是否接触过它，我们先继续往下看，以后就会发现这是一个更广泛的算法家族中的一个特例。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习（二）——线性回归（Linear Regression）

10分钟搞定Mysql主从部署配置

如何使用 JS 判断用户是否处于活跃状态

一键自动化博客发布工具,用过的人都说好(掘金篇)

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习06——小案例

评估统计算法在银行伪造钞票检测中的价值

C# Xmlserializer 程序集内存泄露

如何快速找出一個數組中只出現一次的兩個數，其他元素出現兩次？保證時間複雜度O(n),空間複雜度O(1)

一個即將面臨畢業的菜鳥程序員

機器學習（十四）——證明softmax迴歸屬於GLM模型族

機器學習（十三）——證明邏輯迴歸屬於GLM模型族

Win10 Anaconda 安裝tensorflow-gpu遇到的問題以及解決方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結