機器學習初探-線性迴歸

題外話

我很早就對人工智能是非常感興趣的。記得我大學的畢業論文，就是使用遺傳算法解決了一個經典的尋路問題。
我一直對人類經典的思想是非常敬畏和崇拜的，比如傳統的計算機數據結構算法問題，例如經典的排序算法或者動態規劃思想，把一些看似
複雜的問題竟然用短短十幾行甚至一個 for 循環就能解決，這令我感受到了一種美學，也同時對人類的偉大思想而讚歎。
但傳統的計算機算法其實還是通過，人來編寫代碼，人來通過完整的、解決問題的思路來解決問題。但如果機器能有自己的思想，如果它自己就能“學習”到解決問題的方法，豈不是非常 cool 的一件事。但以我目前的認知來看，現在的人工智能是更像是一種工具，一種“數學工具”，一種“統計學工具”，
它是從大量數據裏總結出了一種“規律”，用來解決實際問題。它離電腦真正有思想還相距甚遠，甚至以目前來看，二者可能並不是一回事。可能讓機器具有思維，還需要在其他學科上進行突破比如人的認知機制，腦科學進行突破。哈哈扯遠了。

先來介紹自己的一些簡單認識。

線性

什麼是線性？

有一類幾何對象，比如直線、平面、立方體，看上去都是有棱有角的，都是“直”的，在數學中稱爲線性

要處理它們相關的問題就非常簡單。比如在高中就學過，兩根直線可以用兩個線性方程來表示，想求它們交點的話：

聯立出兩者的方程組，求出該方程組的解就可以得到交點

爲什麼要研究線性

（1）我們所處的世界、宇宙太複雜了，很多現象都無法理解，更談不上用數學去描述；

（2）有一些符合特定條件的複雜問題，可以轉化爲簡單的線性問題。線性問題就可以完全被理解，完全可以被數學所描述

迴歸

以我目前的認知來看，機器學習主要的任務有兩類。
第一就是分類任務，比如

判斷一張圖片裏的是貓還是狗（二分類，因爲我定義目標結論有兩種，即貓或者狗）
判斷一個股票明天是漲還是跌
判斷一個圖片中的數字是幾（多分類。因爲我定義目標結論有 10 種，0 到 9）

也就是說，分類的結果是，人爲預先定義的結果範圍裏的一種

而第二類任務就是迴歸任務，而它得出的結果是一個連續數字的值，而非類別。
例如

預測房屋價格
預測股票價格

什麼是機器學習

這是我目前的淺顯理解。機器學習目前我覺得是一種數學工具。通過餵給機器大量的學習資料，然後機器運行一個機器學習算法，訓練出了一個模型。然後再向機器丟入問題，機器通過這個模型運算得出結果。

線性迴歸的初步感性理解

比如我收集到了有 x, y 的兩組數據（比如年齡和身高），我想要知道這兩組變量是否有線性關係。那麼我先以一個變量爲 x 軸，另一個變量爲 y 軸畫出這樣一副散點圖。

那麼我就可以找出這樣的一條直線。這條直線的特徵是：儘可能的離所有離散點最近，也可以表述成，每個離散點離直線距離的差值之和最小。
那麼我就可以很好的根據我算出的這條直線，由已知的 x 值，來預測的未知的 y 值。
假如說 x, y 有線性關係的話，那麼預測的效果還是很不錯的。所以線性迴歸的主要任務是，找出這條直線。