Fisher（LDA）判別的推導+python代碼實現二分類

原創

2020-05-05 05:35

Fisher判別的推導

三、python代碼實現

一、Fisher算法的主要思想

線性判別分析(Linear Discriminant Analysis
簡稱LDA)是一種經典的線性學習方法，在二分類問題上因爲最早由【Fisher，1936年】提出，所以也稱爲“Fisher 判別分析！”
Fisher（費歇）判別思想是投影，使多維問題簡化爲一維問題來處理。選擇一個適當的投影軸,使所有的樣本點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是：使每一類內的投影值所形成的類內離差儘可能小，而不同類間的投影值所形成的類間離差儘可能大。

二、Fisher數學算法步驟

爲了找到最佳投影方向，需要計算出各類樣本均值、樣本類內離散度矩陣 Si\boldsymbol S_{i}S i和樣本總類內離散度矩陣 Sw\boldsymbolS_{w}Sw、樣本類間離散度矩陣 Sb\boldsymbol S_{b}Sb ，根據Fisher準則，找到最佳投影向量，將訓練集內的所有樣本進行投影，投影到一維Y空間，由於Y空間是一維的，則需要求出Y空間的劃分邊界點，找到邊界點後，就可以對待測樣本進行一維Y空間投影，判斷它的投影點與分界點的關係，將其歸類。具體方法如下(以兩類問題爲例子)：

①計算各類樣本均值向量 $m_i$ , $m_i$ 是各個類的均值， $N_i$ 是 $w_i$ 類的樣本個數。

②計算樣本類內離散度矩陣 $S_i$ 和總類內離散度矩陣 $S_w$

③計算樣本類間離散度矩陣 $S_b$

④求投影方向向量 $W$ (維度和樣本的維度相同)。我們希望投影后，在一維 $Y$ 空間裏各類樣本儘可能分開，就是我們希望的兩類樣本均值之差 $(\overline{m_1}-\overline{m_2})$ 越大越好，同時希望各類樣本內部儘量密集，即是：希望類內離散度越小越好。因此，我們可以定義Fisher準則函數爲：

2使得 $J_F(w)$ 取得最大值 $w$ 爲：

⑤將訓練集內所有樣本進行投影。

⑥. 計算在投影空間上的分割閾值 $y_0$ ，在一維Y空間，各類樣本均值 $\overline{m_i}$ 爲:

樣本類內離散度 $\overline{S_i}^2$ 和總類內離散度 $\overline{S_w}$

而此時類間離散度就成爲兩類均值差的平方。

計算閾值 $y_0$

⑦對於給定的測試樣本 $x$ ，計算出它在 $w$ 上的投影點 $y$

⑧根據決策規則分類！

三、python代碼實現

1.數據生成

from sklearn.datasets import make_multilabel_classification
import numpy as np

x, y = make_multilabel_classification(n_samples=20, n_features=2,
                                      n_labels=1, n_classes=1,
                                      random_state=2)  # 設置隨機數種子，保證每次產生相同的數據。

# 根據類別分個類
index1 = np.array([index for (index, value) in enumerate(y) if value == 0])  # 獲取類別1的indexs
index2 = np.array([index for (index, value) in enumerate(y) if value == 1])  # 獲取類別2的indexs

c_1 = x[index1]   # 類別1的所有數據(x1, x2) in X_1
c_2 = x[index2]   # 類別2的所有數據(x1, x2) in X_2

2、fisher算法實現

# 2、Fisher算法實現
def cal_cov_and_avg(samples):
    """
    給定一個類別的數據，計算協方差矩陣和平均向量
    :param samples:
    :return:
    """
    u1 = np.mean(samples, axis=0)
    cov_m = np.zeros((samples.shape[1], samples.shape[1]))
    for s in samples:
        t = s - u1
        cov_m += t*t.reshape(2, 1)
    return cov_m, u1
def fisher(c_1, c_2):
    """
    fisher算法實現(參考上面的推導公式進行理解)
    :param c_1:
    :param c_2:
    :return:
    """
    cov_1, u1 = cal_cov_and_avg(c_1)
    cov_2, u2 = cal_cov_and_avg(c_2)
    s_w = cov_1 + cov_2          # 總類內離散度矩陣。
    u, s, v = np.linalg.svd(s_w) # 下面的參考公式（4-10）
    s_w_inv = np.dot(np.dot(v.T, np.linalg.inv(np.diag(s))), u.T)
    return np.dot(s_w_inv, u1 - u2)

3、判斷類別

def judge(sample, w, c_1, c_2):
    """
    返回值：ture 屬於1；false 屬於2
    :param sample:
    :param w:
    :param c_1:
    :param c_2:
    :return:
    """
    u1 = np.mean(c_1, axis=0)
    u2 = np.mean(c_2, axis=0)
    center_1 = np.dot(w.T, u1) # 參考公式(2-8)
    center_2 = np.dot(w.T, u2)
    pos = np.dot(w.T, sample)  # 新樣本進來判斷
    return abs(pos - center_1) < abs(pos - center_2)

w = fisher(c_1, c_2)             # 調用函數，得到參數w
out = judge(c_2[1], w, c_1, c_2) # 判斷所屬的類別。
print(out)

4.繪圖

# 4、繪圖功能
plt.scatter(c_1[:, 0], c_1[:, 1], c='red')
plt.scatter(c_2[:, 0], c_2[:, 1], c='blue')
line_x = np.arange(min(np.min(c_1[:, 0]), np.min(c_2[:, 0])),
                   max(np.max(c_1[:, 0]), np.max(c_2[:, 0])),
                   step=1)
line_y = -(w[0]*line_x) / w[1]
plt.plot(line_x, line_y, linewidth=3.0,  label = 'fisher boundary line ')
plt.legend(loc='upper right')
plt.xlabel('feature 1')
plt.ylabel('feature 2')
plt.show()

5.運行結果：

參考鏈接：https://blog.csdn.net/abc13526222160/article/details/90611743

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Fisher（LDA）判別的推導+python代碼實現二分類

Fisher判別的推導

一、Fisher算法的主要思想

二、Fisher數學算法步驟

①計算各類樣本均值向量 $m_i$ , $m_i$ 是各個類的均值， $N_i$ 是 $w_i$ 類的樣本個數。

②計算樣本類內離散度矩陣 $S_i$ 和總類內離散度矩陣 $S_w$

③計算樣本類間離散度矩陣 $S_b$

2使得 $J_F(w)$ 取得最大值 $w$ 爲：

⑤將訓練集內所有樣本進行投影。

⑥. 計算在投影空間上的分割閾值 $y_0$ ，在一維Y空間，各類樣本均值 $\overline{m_i}$ 爲:

⑦對於給定的測試樣本 $x$ ，計算出它在 $w$ 上的投影點 $y$

⑧根據決策規則分類！

三、python代碼實現

1.數據生成

2、fisher算法實現

3、判斷類別

4.繪圖

5.運行結果：

大數據之Hadoop學習（七）Java API編程實例對HBase數據庫進行增刪改查等操作

基於Jupyter 完成實驗四：Python圖像處理庫（Pillow教程）

ROS下基於YOLO的px4無人機目標檢測+對應的各種問題解決辦法（親測有效，避免入坑）

（無人機）編譯make px4_sitl_default gazebo 命令遇到 c++: internal compiler error: 已殺死 (program cc1plus)錯誤

windows10（64位）Anaconda3+Python3.6搭建Tensorflow（cpu版本）及keras+用Jupyter notebook運行Kaggle狗貓數據集+提高模分類模型精度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Fisher（LDA）判別的推導+python代碼實現二分類

Fisher判別的推導

一、Fisher算法的主要思想

二、Fisher數學算法步驟

①計算各類樣本均值向量mim_imi​,mim_imi​是各個類的均值，NiN_iNi​是wiw_iwi​類的樣本個數。

②計算樣本類內離散度矩陣SiS_iSi​和總類內離散度矩陣SwS_wSw​

③計算樣本類間離散度矩陣SbS_bSb​

2使得JF(w)J_F(w)JF​(w)取得最大值www爲：

⑤將訓練集內所有樣本進行投影。

⑥. 計算在投影空間上的分割閾值y0y_0y0​，在一維Y空間，各類樣本均值mi‾\overline{m_i}mi​​爲:

⑦對於給定的測試樣本xxx，計算出它在www上的投影點yyy

⑧根據決策規則分類！

三、python代碼實現

1.數據生成

2、fisher算法實現

3、判斷類別

4.繪圖

5.運行結果：

①計算各類樣本均值向量 $m_i$ , $m_i$ 是各個類的均值， $N_i$ 是 $w_i$ 類的樣本個數。

②計算樣本類內離散度矩陣 $S_i$ 和總類內離散度矩陣 $S_w$

③計算樣本類間離散度矩陣 $S_b$

2使得 $J_F(w)$ 取得最大值 $w$ 爲：

⑥. 計算在投影空間上的分割閾值 $y_0$ ，在一維Y空間，各類樣本均值 $\overline{m_i}$ 爲:

⑦對於給定的測試樣本 $x$ ，計算出它在 $w$ 上的投影點 $y$