原创 機器學習之分類結果的評價

以邏輯迴歸爲例,介紹分類結果的評價方式。 精準率和召回率 對於極度偏斜的數據,使用分類準確度來評判模型的好壞是不恰當的,精確度和召回率是兩個更好的指標來幫助我們判定模型的好快。 二分類的混淆矩陣 精準率和召回率是存在於混淆矩陣之上的,以二分

原创 機器學習之邏輯迴歸

邏輯迴歸將樣本特徵和樣本發生的概率聯繫起來,用於解決分類問題。 Sigmoid 函數 在最簡單的二分類中,邏輯迴歸裏樣本發生的概率的值域爲 [0, 1],對於線性迴歸 $\hat{y} = \theta^T·x_b$,爲了將 $\hat y

原创 機器學習之多項式迴歸與模型泛化

多項式迴歸 多項式迴歸使用線性迴歸的基本思路 非線性曲線如圖: 假設曲線表達式爲:$y=ax^2+bx+c$,如果將 $x^2$ 看作爲 $x_1$,即 $y_1=ax_1+bx+c$,此時就有了兩個特徵,則可以看作是線性曲線表達式。 首

原创 機器學習之PCA與梯度上升法

主成分分析(Principle Component Analysis,簡稱:PCA)是一種非監督學習的機器算法,主要用於數據的降維。 PCA 基本原理 以有2個特徵的二維平面舉例,如圖: 橫軸表示特徵1,縱軸表示特徵2,其中4個點表示二維

原创 機器學習之梯度下降法與線性迴歸

梯度下降法不是一個機器學習算法,而是一種基於搜索的最優化方法,用於最小化一個效用函數。 簡單理解梯度下降法 假設存在一個只有一個參數 $\theta$ 的損失函數 $J$,想找到最小極值處的 $\theta$,如圖所示: 藉助於損失函數

原创 機器學習之線性迴歸法

在統計學中,線性迴歸(Linear regression)是利用稱爲線性迴歸方程的最小二乘函數對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析維基百科。 簡單線性迴歸 當只有一個自變量的時候,成爲簡單線性迴歸。 簡單線性迴歸模型的思

原创 機器學習之數據歸一化

機器學習中,數據歸一化是非常重要,如果不進行數據歸一化,可能會導致模型壞掉或者訓練出一個奇怪的模型。 爲什麼要進行數據歸一化 現在有一個訓練數據集,包含兩個樣本,內容如下: 腫瘤大小(cm) 發現時間(day) 樣本1 1 2

原创 機器學習之 K-近鄰算法

k-近鄰算法通過測量不同特徵值之間的距離方法進行分類。 k-近鄰算法原理 對於一個存在標籤的訓練樣本集,輸入沒有標籤的新數據後,將新數據的每個特徵與樣本集中數據對應的特徵進行比較,根據算法選擇樣本數據集中前k個最相似的數據,選擇k個最相似數