數據挖掘(理論):預測和診斷

一,預測

一,引言

       預測是指根據客觀事物的發展趨勢和變化規律對特定的對象未來發展趨勢或狀態作出科學的推斷與判斷,即預測就是根據過去和現在估計未來。

       預測的方法很多,前面介紹的迴歸方法、分類方法都可以用來進行預測,但預測方法中又有一些比較特殊的方法,比如灰色預測和馬爾科夫預測等。

原理

二,灰色預測

        灰色系統理論認爲:儘管系統的行爲現象是朦朧的,數據是複雜的,但它畢竟是有序的,是有整體功能的。在建立灰色預測模型之前,需先對原始時間序列進行數據處理,經過數據預處理後的數據序列稱爲生成列。對原始數據進行預處理,不是尋求它的統計規律和概率分佈,而是將雜亂無章的原始數據列,通過一定的方法處理,變成有規律的時間序列數據,即以數找數的規律,再建立動態模型。

        灰色預測通過鑑別系統因素之間發展趨勢的相異程度,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物的未來發展趨勢。灰色預測的數據是通過生成數據的模型所得到的預測值的逆處理結果。灰色預測是以灰色模型爲基礎的,在諸多的灰色模型中,以灰色系統中單序列一階線性微分方程模型 最爲常用。

   灰色預測模型所需建模信息較少,運算方便,建模精度高,是處理小樣本預測問題的有效工具,但缺少對系統內在機理的考量,有可能出現較大誤差,一般不推薦使用。

        灰色預測適用條件:用於時間短、數據資料少、數據不需要典型的分佈規律、計算量較低、對短期預測有較高精度。不適合隨機波動較大的數據。

       灰色預測建模思想:直接將時間序列轉化爲微分方程,建立抽象系統的發展變化動態模型。常用模型爲:GM(1,1)模型,也稱爲單序列一階線性動態模型。

三,馬爾科夫預測

馬爾科夫鏈是一種隨機事件序列,未來的取值只與當前取值有關,與歷史取值無關,是一種離散型的隨機過程。

隱馬爾可夫模型各變量的依賴關係如下圖。在任一時刻,觀測變量的取值僅依賴於狀態變量,即 xt 僅由 yt 確定;任一時刻的狀態變量僅依賴於其上一時刻的狀態變量,即 yt 僅依賴於 y(t-1)。這就是馬爾可夫鏈(Markov chain),即:系統下一時刻的狀態僅由當前狀態決定,不依賴於以往的任何狀態。

二,診斷

離羣點診斷方法,簡稱診斷方法,是數據挖掘領域中的一項重要的挖掘技術,其目標是發現數據集中行爲異常的少量數據對象,這些數據對象稱爲離羣點或孤立點(outLier)。

一,定義

離羣點(outlier是指數值中,遠離數值的一般水平的極端大值和極端小值。

離羣點診斷:給出n個數據點或對象的集合,及預期的離羣點的數目k,發現與剩餘的數據相比是顯著差異的、異常的或不一致的前k個對象。

二,基於統計的離羣點診斷

1)若此點在上、下警告線之間的區域內,則數據處於正常狀態;

2)若此點超出上、下警告線,但仍在上、下控制線之間的區域內,提示質量開始變劣,可能存在“離羣”傾向;

3)若此點落在上、下控制線之外,表示數據已經“離羣",這些點即被診斷出的離羣點。

優點:

       離羣點診斷的統計學方法具有堅實的基礎,建立在標準的統計學技術(如分佈參數的估計)之上。當存在充分的數據和所用的檢驗類型時,診斷離羣點非常有效。

缺點:

       對於單個屬性,存在各種統計離羣點診斷。對於多元數據,很難同時對多維數據使用基於統計的離羣點診斷方法,通常還需要按照單個變量的方法進行診斷。

三,基於距離的離羣點診斷

基於距離的離羣點檢測方法的基本思想是如果某個對象遠離大部分其他對象,那麼該對象是離羣的。

基於距離方法的兩種不同策略:

1)採用給定鄰域半徑,依據點的鄰域中包含的對象多少來判定離羣點。如果一個點的鄰域內包含的對象少於整個數據集的一定比例則標識它爲離羣點,也就是將沒有足夠鄰居的對象看成是基於距離的離羣點。

2)利用k最近鄰距離的大小來判定離羣。使用k-最近鄰的距離度量一個對象是否遠離大部分點,一個對象的離羣程度由到它的k-最近鄰的距離給定。這種方法對k的取值比較敏感。k太小(例如1),則少量的鄰近離羣點可能導致較低的離羣程度。k太大,則點數少於k的簇中所有的對象可能都成了離羣點。

P1點進行分析。k=2;最近鄰的點爲P3P2distance(P1P2)distance(P1P3)分別爲6.081.41,平均距離爲:

對P2點進行分析。k=2;最近鄰的點爲P3P4,同理有:

因爲OF1(P1,K)> OF1(P2,K),因此,P1點更有可能是離羣點。

優點:

1)不必對數據集的相關信息(數據服從哪種統計分佈模型,數據類型特點等)足夠了解,只要給出距離的度量並對數據進行預處理後,就可以找出數據集中的離羣點。並且避免了大量的計算,而大量的計算正是使觀察到的數據分佈適合某個標準分佈及選擇不一致性檢驗所需要的。

2)在理論上可以處理任意維任意類型的數據,克服了基於統計的方法只能較好的處理某種概率分佈的數值型單變量數據集的缺陷。

缺點:

1)當數據集規模異常大時,計算複雜度很高。

2)檢測結果對參數k的選擇較敏感,對於不同參數結果有很大的不穩定性,而且在高維數據中應用比較困難。

3)是對挖掘出的離羣點不能區分強離羣點和弱離羣點

四,基於密度的離羣點挖掘

基於密度的方法就是探測局部密度,通過不同的密度估計策略來檢測離羣點。所謂密度是指任一點和p點距離小於給定半徑R的鄰域空間數據點的個數。Breuning用局部離羣因子(LOF)來表示點的孤立程度,離羣點就是具有較高LOF值的數據對象。也就是說數據是否離羣點不僅僅取決於它與周圍數據的距離大小,而且與鄰域內的密度狀況有關。

優點:

       基於相對密度的離羣點檢測給出了對象是離羣點程度的定量度量,並且即使數據具有不同密度的區城也能夠很好地處理。

缺點:

      1、與基於距離的方法一樣,這些方法必然具有Om2)時間複雜度(其中m是對象個數),雖然對於低維數據,使用專門的數據結構可以將它降低到Omlogm)。

      2、參數選擇也是困難的,雖然標準LOF算法通過觀察不同的k值,然後取最大離羣點得分來處理該問題。然而,仍然需要選擇這些值的上下界。

五,基於聚類的離羣點挖掘

聚類分析是用來發現數據集中強相關的對象組,而離羣點診斷是發現不與其他對象組強相關的對象。因此,離羣點診斷和聚類是兩個相對立的過程。如果聚類的結果中,某個簇的點比較少,且中心距離距離其他簇又比較遠,則該簇中的點是離羣點的可能性就比較大,所以從這個角度將聚類方法用於離羣點診斷也是很自然的想法。

優點:

       有些聚類技術(如K均值)的時間和空間複雜度是線性或接近線性的,因而基於這種算法的離羣點檢測技術可能是高度有效的。此外,在聚類過程中,是對所有樣本進行聚類,因此可能同時發現簇和離羣點。

缺點:

      產生的離羣點集和它們的得分可能非常依賴所用的簇的個數。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章