判別分析(待添加)

1.定義
判別分析(distinguish analysis)是根據所研究的個體的觀測指標來推斷該個體所屬
類型的一種統計方法,在自然科學和社會科學的研究中經常會碰到這種統計問題。例如
在地質找礦中我們要根據某異常點的地質結構、化探和物探的各項指標來判斷該異常點
屬於哪一種礦化類型;醫生要根據某人的各項化驗指標的結果來判斷該人屬於什麼病
症;調查了某地區的土地生產率、勞動生產率、人均收入、費用水平、農村工業比重等
指標,來確定該地區屬於哪一種經濟類型地區等等。該方法起源於1921 年Pearson 的
種族相似係數法,1936 年Fisher 提出線性判別函數,並形成把一個樣本歸類到兩個總體之一的判別法。

2.原理
從概率論的角度看,可把判別問題歸結爲如下模型。設共有 n個總體:ξ1 , ξ2, … ,ξn,其中ξi是m 維隨機變量,其分佈函數爲Fi(x1 ,x2, … ,xm ) ,i = 1,2,…,n。而(x1 ,x2, … ,xm )是表徵總體特性的m 個隨機變量的取值。在判別分析中稱這m 個變量爲判別因子。現有一個新的樣本點y = (y1 ,y2, … ,ym ),要判斷此樣本點屬於哪一個總體。

下面介紹最基本的幾種判別方法:最大似然法,距離判別,Bayes判別和Fisher 判別。判別方法是確定待判樣品歸屬於哪一組的方法,可分爲參數法和非參數法,也可以根據資料的性質分爲定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別準則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。

3.最大似然法
用於自變量均爲分類變量的情況,該方法建立在獨立事件概率乘法定理的基礎上,根據訓練樣品信息求得自變量各種組合情況下樣品被封爲任何一類的概率。當新樣品進入是,則計算它被分到每一類中去的條件概率(似然值),概率最大的那一類就是最終評定的歸類。

4.距離判別
其基本思想是有訓練樣品得出每個分類的重心座標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變量均爲連續變量的情況下進行分類,且它對變量的分佈類型無嚴格要求,特別是並不嚴格要求總體協方差陣相等。

5.Fisher判別
亦稱典則判別,是根據線性Fisher函數值進行判別,通常用於梁祝判別問題,使用此準則要求各組變量的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變量組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異儘可能小,而不同類間投影的離差儘可能大。Fisher判別的優勢在於對分佈、方差等都沒有任何限制,應用範圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。

6.Bayes判別
許多時候用戶對各類別的比例分佈情況有一定的先驗信息,也就是用樣本所屬分類的先驗概率進行分析。比如客戶對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗概率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變量必須服從多元正態分佈、各組協方差矩陣必須相等、各組變量均值均有顯著性差異。

他們具體的分析方法和公式推導,可參考《數學建模算法大全–司守奎(2003)》的第29章-多元分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章