文章目錄

課程簡介

本節課主要是使用【Pokemon精靈攻擊力預測】的例子來講述迴歸算法的應用

迴歸定義和應用例子

迴歸定義

Regression 就是找到一個函數 $function$ ，通過輸入特徵 $x$ ，輸出一個數值 $Scalar$ 。

應用舉例

股市預測（Stock market forecast）
- 輸入：過去10年股票的變動、新聞諮詢、公司併購諮詢等
- 輸出：預測股市明天的平均值
自動駕駛（Self-driving Car）
- 輸入：無人車上的各個sensor的數據，例如路況、測出的車距等
- 輸出：方向盤的角度
商品推薦（Recommendation）
- 輸入：商品A的特性，商品B的特性
- 輸出：購買商品B的可能性
Pokemon精靈攻擊力預測（Combat Power of a pokemon）：
- 輸入：進化前的CP值、物種（Bulbasaur）、血量（HP）、重量（Weight）、高度（Height）
- 輸出：進化後的CP值

模型建立的3個基本步驟

step1：模型假設，選擇模型框架（線性模型）
step2：模型評估，如何判斷衆多模型的好壞（損失函數）
step3：模型優化，如何篩選最優的模型（梯度下降）

Pokemon精靈攻擊力預測建模詳細步驟

Step 1：模型假設 - 線性模型

一元線性模型（單個特徵）

以一個特徵 $x_{cp}$ 爲例，線性模型假設 $y = b + w·x_{cp}$ ，所以 $w$ 和 $b$ 可以猜測很多模型：
$f_1: y = 10.0 + 9.0·x_{cp} \\ f_2: y = 9.8 + 9.2·x_{cp} \\ f_3: y = - 0.8 - 1.2·x_{cp} \\ ···$

雖然可以做出很多假設，但在這個例子中，顯然 $f_3: y = - 0.8 - 1.2·x_{cp}$ 的假設是不合理的，不能進化後CP值是個負值吧~~

多元線性模型（多個特徵）

在實際應用中，輸入特徵肯定不止 $x_{cp}$ 這一個。例如，進化前的CP值、物種（Bulbasaur）、血量（HP）、重量（Weight）、高度（Height）等，特徵會有很多。

圖1：

所以我們假設 線性模型 Linear model： $y = b + \sum w_ix_i$

$x_i$ ：就是各種特徵(fetrure) $x_{cp},x_{hp},x_w,x_h,···$
$w_i$ ：各個特徵的權重 $w_{cp},w_{hp},w_w,w_h,··$
$b$ ：偏移量

注意：接下來的內容需要看清楚是【單個特徵】還是【多個特徵】的示例

Step 2：模型評估 - 損失函數（Goodness of function）

【單個特徵】: $x_{cp}$

收集和查看訓練數據

這裏定義 $x^1$ 是進化前的CP值， $\hat{y}^1$ 進化後的CP值， $\hat{}$ 所代表的是真實值

圖2：

將10組原始數據在二維圖中展示，圖中的每一個點 $(x_{cp}^n,\hat{y}^n)$ 對應着 進化前的CP值 和 進化後的CP值。

圖3：

如何判斷衆多模型的好壞

有了這些真實的數據，那我們怎麼衡量模型的好壞呢？從數學的角度來講，我們使用距離。求【進化後的CP值】與【模型預測的CP值】差，來判定模型的好壞。也就是使用 損失函數（Loss function） 來衡量模型的好壞，統計10組原始數據 $\left ( \hat{y}^n - f(x_{cp}^n) \right )^2$ 的和，和越小模型越好。如下圖所示：

圖4：

如果覺得看着這個圖會暈，忽略圖4，直接看公式推導的過程：

$\begin{aligned} L(f) & = \sum_{n=1}^{10}\left ( \hat{y}^n - f(x_{cp}^n) \right )^2，將【f(x) = y】, 【y= b + w·x_{cp}】代入 \\ & = \sum_{n=1}^{10}\left ( \hat{y}^n - (b + w·x_{cp}) \right )^2\\ \end{aligned}$