Vectorization in Machine Learning

原創

初雪与你

2020-06-03 06:52

對於有些問題，如果使用了合適的向量化方法，代碼就會變得簡單得多而且有效得多。

我們來看一些例子：

這是一個常見的線性迴歸假設函數：

如果想要計算h(x)，注意右邊是一個求和公式。那麼可以自己來計算 j = 0到 j = n的和。

但換另一種方式來想一想，把h(x)看做是θ的轉置乘以x，那麼就可以表示成兩個向量的內積。假設這裏有兩個特徵向量（也就是n等於2）的話，那麼θ就是[θ_0; θ_1; θ_2]，並且把x看做一個向量，x = [x_0; x_1; x_2]。

這兩種思考角度，會給你兩種不同的實現方式。

如下圖所示，左邊是未向量化的代碼來計算h(x)。這樣的話，我們可能首先要初始化變量prediction的值爲0.0，而這個變量prediction的最終結果就是h(x)。然後要用一個for循環，j取值1到n+1，變量prediction每次更新爲自身加上θ(j) * x(j)，這個就是算法的代碼實現。

順便提醒一下，這裏的向量用的下標是從0開始的，但因爲MATLAB下標從1開始，在MATLAB中可能會用θ1來表示θ0，θ1用θ2來表示，而第三個元素就用θ3表示。

儘管實際的θ和x，下標從0開始，但MATLAB中的向量下標從1開始。這就是爲什麼這裏的for循環中j的取值是從1到n+1，而不是從0到n。

這是一個未向量化的代碼實現方式，我們要用一個for循環對n個元素進行加和。

作爲比較，接下來是向量化的代碼實現。

將x和θ看做向量，然後只需要令prediction等於θ的轉置乘以x。與其寫for循環的多行代碼，而現在只需要一行代碼，這行代碼就是利用Octave高度優化的數值線性代數算法，來計算θ和x兩個向量的內積。向量化的實現方式不僅代碼更簡單，也會讓運行更高效。

這就是Octave所做的，而向量化的方法，在其他編程語言中同樣可以實現。

來看一個用C++實現的例子：

這就是未向量化的代碼。同樣地先初始化變量prediction爲0.0，然後是一個for循環，j等於從0到n，然後變量prediction每次等於自身加上 θ[j] * x[j]。

這樣也是自己寫了一個for循環。與此相反，利用C++數值線性代數庫，就可以用下圖這個方程，這取決於你的數值線性代數庫的內容，或許可以有一個C++對象向量theta和另一個C++對象向量x，然後只需要用 theta.transpose() * x ，然後讓C++來實現運算。只需要在C++中讓兩個向量相乘。根據你所使用的數值線性代數庫，代碼表達方式可能會有些許不同，但通過一個內置庫來計算內積，可以得到一段更簡單更有效的代碼。