一、無指導聚類
1. 選擇算法
這裏我們選擇ESX,他具有三層結構,能夠適應無指導和有指導的數據挖掘分析。
2. 設置instance similarity相似指數
越趨近於0,實例所能舉出來的類就愈少。通過這個參數的控制我們能夠得到想要數量的類。另一個參數real-valuedtolerance還不太清楚其中的含義。
3. 觀察類數
設定參數後會出現聚類所得的類的個數,我們可以作爲參考。不合適我們可以重新設置參數。
4. 數據挖掘過程
其中的算法不可見。
5. 規則產生器,能夠產生相關的規則。
Minimum correctness value是指設置準確率下限,例如:準確率表示符合(Income Range = "30-40,000",則爲Class 2)的概率爲100%。(符合條件和結論的事件數/符合條件的事件數)
Minimum rule coverage是指覆蓋率下限,例如:覆蓋率是指符合Income Range = "30-40,000"的實例在Class2中有4條,Class2有5條實例,所以,覆蓋率爲80%。(符合條件和結論的事件數/事件總數)
Attribute significance 是選擇具有較高的Predictiveness的屬性進行規則生成。一般會先設置一個比較高的值,如果沒有理想的結果,就放寬條件。
Scope:
1) all rules
2) covering set rules 覆蓋集規則 爲什麼只出現了關於Income Range的規則,而沒有其他 Instancesource
1) all class instance
2) most typical class instance 不太明白有什麼區別,使顯示典型實例,還是隻用典型事例
6. Sheet1 RES SUM
1)第一部分
主要表示了分出的類的總體信息。
Res.score表示的是類內的實例間的相似度,是聚類是否好的的重要指標,一般情況下ClassN的數值要大於domain的數值,domain表示的是整體的相似度。
No. of Inst.表示類中實例的數量。
Cluster Quality:表示分類的質量
2)第二部分
分類數據彙總
Number of Classes:表示分類的個數
Domain Res. Score:表示所有實例之間的相似度
Categorical Attribute Summary:是說明分類數據的總結
Predictability = Frequency / Numberof instance 能夠表示這個屬性值出現的頻率,值越大越能夠表明,這個屬性值經常出現。這裏主要是表示域級預測能力得分。例如:80%信用卡持有者沒有信用卡保險,60%的信用卡持有者利用了壽險促銷。如果域級預測能力指標接近於100%,說明這個屬性不可能對有指導和無指導的學習有效,因爲大部分實例中屬性值相同。但在決定孤立點的時候要謹慎處理。
3)第三部分
DOMAIN STATISTICS FOR NUMERICAL ATTRIBUTES是對數值型數據的彙總,這裏給出了每個數據的中值和標準差。
Domain表示總體的均值和標準差
Attribute Significance = 最大類平均值– 最小類平均值 / 域標準偏差值。說明的屬性的重要性,數值越高說明對於分類越有利。通常低於0.25的屬性在區分兩個類的時候沒有很大價值
4)第四部分
這裏說明了每個類中最典型的數據,這些數據一定是包含在數據集中的
7. Sheet1 RES CLS
這張表對於每個類的具體信息進行了描述,這裏僅舉一個類的例子。
Class: 是說明類的標號
Total Number ofInstances:說明類中實例的個數
ClassResemblance Score:類內部的相似性指數,指數越大,分類效果越好。
Most TypicalInstances:舉例了類內部最典型的實例,這些實例必定在實例集中
Least TypicalInstances: 舉例了類內部最不典型的實例,這些實例必定在實例集中
Typicality說明典型事例和非典型實例的典型指數,指數越大,越典型
CategoricalAttribute Summary:分類數據彙總
Predictability= 該類內具有該屬性的實例個數/ 該類內實例的總數,越大表明在類內部這個屬性值經常出現
Predictability= 該類內具有該屬性的實例個數/ 舉有該屬性值的所有實例個數,表明這個屬性值,落在這個類中的概率,但是有什麼意義呢
Predictability,Predictiveness都等於1,則屬性值被認爲是類成員資格的充分必要條件。Predictability等於1,Predictiveness不等於1,則類中所有屬性值都爲特定值,而別的類中同樣存在這樣的屬性值。Predictability不等於1,Predictiveness等於1,則等於特定屬性值的實例都在類中,二類中可能存在其他的屬性值。
通常至少應該有一個Predictiveness較高的分類屬性作爲輸入屬性,具有較低預測性值的分類指標標爲不適用。這裏應該是指每一類中的Predictiveness都較低的吧,那高如何衡量呢。
AttributeValues Necessary and Sufficient for Class Membership:表明了該類的充分必要屬性,即Predictability,Predictability都大於0.8的屬性值
AttributeValues Highly Sufficient for Class Membership:充分條件,Predictiveness>0.8
AttributeValues Highly Necessary for Class Membership:必要條件,Predictability>0.8
8. Sheet1 RUL TYP
將各個實例進行了分類,並將每一類放在一起,給出了每個實例的典型性數值作爲分類好壞的標準。實例典型性指標表示了與其他實例的平均相似度。
9. Sheet1 RES RUL
Accuracy:表示對於這個規則百分之多少是正確的,有百分之多少被正確分類。
Coverage:表示規則有百分之多少適用於該類,類中百分之多少是該屬性值
Scope;Instance Source;MinimumCorrectness;Percent Covered;Attribute Significance都不太明白什麼意思。
二、有指導學習
1. 選擇算法
數據集中必須有一個數據項被設置爲O,才能夠進行有指導的學習,輸出分類按照O的屬性值進行分類。
2. 設置訓練實例數
設置合理的訓練實例數,能夠有效地訓練模型,使得模型適應輸入信息,爲預測做準備。另一個參數real-valuedtolerance還不太清楚其中的含義。
3. 數據挖掘過程
其中的算法不可見。
4. 規則產生器,能夠產生相關的規則。
具體形勢與無指導的聚類相同
5. Sheet1 RES MTX
計算矩陣能夠表示測試實例集中實際的分類狀況和計算的分類狀況之間的差距,並能夠計算總體的正確率,正確率越高模型越準確。Error: Upper Bound;Error: Lower Bound的具體含義還不是特別明白
6. Sheet1 RES TST
實例集分類情況,但是比原始表格多了兩列,一個是實際值,一個是計算值。帶星號的表示正確分類的實例。
7. 其他表格同無指導聚類
三、有指導的神經網絡
1. 選擇算法
神經網絡分析必須全部轉化爲數值型數據,並且有O型數據。這裏我們選擇反向傳播神經網絡。具體算法不可見。
2. 設置參數
Hidden layer是指隱藏層的節點數目。這裏默認有兩個隱藏層。
Learning rate:學習效率,設定了每次學習的步伐。
Ecochs:設置學習週期,若在高設置週期中沒有找到符合條件的模型,則停止學習。
Convergence:設置的誤差參數,一旦誤差小於這個值,則停止學習。
Traininginstance:設置了訓練繼的實例個數,剩下的就爲檢驗集。
3. 數據挖掘過程
4. Sheet1 RES NN
1)第一部分
對於各屬性的最大值、最小值、均值、方差進行了整理。
2)第二部分
對於每一個測試集中的實例進行整理,對比實際數值和計算出的數值之間的差距。
首先,對於每一個輸入值,都需要進過規範化,才能在最終的模型中使用。
RMS = (∑|C-R|2)-2,C是實際值,R是計算值
MAS = ∑|C-R|
上面兩者都表示了測試集實例實際值與計算值之間的誤差和。誤差越大預測越不準。
二、 無指導的神經網絡
1. 選擇算法
神經網絡輸入數據必須爲數值型,這裏利用了無指導神經網絡聚類。
2. 設置參數
Output layer指的是輸出層網絡的大小。具體行列表示什麼不清楚。
Clusters:說明想要聚成類的個數。
其他參數與神經網絡的參數相同。
3. 數據挖掘
4. Sheet1 RES NN
對於所有輸入屬性的彙總,輸出了最大值、最小值、均值、標準差。
Root meansquared error:表示根節點的均值平方誤差,越大越不好。
5. Sheet1 RES NN DET
對所有數據的分類,最後一列標出了屬於的類。