使用Weka進行數據挖掘

1.簡介

數據挖掘、機器學習這些字眼,在一些人看來,是門檻很高的東西。誠然,如果做算法實現甚至算法優化,確實需要很多背景知識。但事實是,絕大多數數據挖掘工程師,不需要去做算法層面的東西。他們的精力,集中在特徵提取,算法選擇和參數調優上。那麼,一個可以方便地提供這些功能的工具,便是十分必要的了。而weka,便是數據挖掘工具中的佼佼者。

Weka的全名是懷卡託智能分析環境(Waikato Environment for Knowledge Analysis),是一款免費的,非商業化的,基於JAVA環境下開源的機器學習以及數據挖掘軟件。它和它的源代碼可在其官方網站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨有的一種鳥名,而Weka的主要開發者同時恰好來自新西蘭的the University of Waikato。(本段摘自百度百科)。

Weka提供的功能有數據處理,特徵選擇、分類、迴歸、聚類、關聯規則、可視化等。本文將對Weka的使用做一個簡單的介紹,並通過簡單的示例,使大家瞭解使用weka的流程。本文將僅對圖形界面的操作做介紹,不涉及命令行和代碼層面的東西。

 

2.安裝

Weka的官方地址是http://www.cs.waikato.ac.nz/ml/weka/。點開左側download欄,可以進入下載頁面,裏面有windows,mac os,linux等平臺下的版本,我們以windows系統作爲示例。目前穩定的版本是3.6。

如果本機沒有安裝java,可以選擇帶有jre的版本。下載後是一個exe的可執行文件,雙擊進行安裝即可。

安裝完畢,打開啓動weka的快捷方式,如果可以看到下面的界面,那麼恭喜,安裝成功了。

圖2.1 weka啓動界面

窗口右側共有4個應用,分別是

1)Explorer

用來進行數據實驗、挖掘的環境,它提供了分類,聚類,關聯規則,特徵選擇,數據可視化的功能。(An environment for exploring data with WEKA)

2)Experimentor

用來進行實驗,對不同學習方案進行數據測試的環境。(An environment for performing experiments and conducting statistical tests between learning schemes.)

3)KnowledgeFlow

功能和Explorer差不多,不過提供的接口不同,用戶可以使用拖拽的方式去建立實驗方案。另外,它支持增量學習。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.)

4)SimpleCLI

簡單的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.)

3.數據格式

Weka支持很多種文件格式,包括arff、xrff、csv,甚至有libsvm的格式。其中,arff是最常用的格式,我們在這裏僅介紹這一種。

Arff全稱是Attribute-Relation File Format,以下是一個arff格式的文件的例子。

%

%  Arff file example

%

@relation ‘labor-neg-data’

@attribute ‘duration’ real

@attribute ‘wage-increase-first-year’ real

@attribute ‘wage-increase-second-year’ real

@attribute ‘wage-increase-third-year’ real

@attribute ‘cost-of-living-adjustment’ {‘none’,'tcf’,'tc’}

@attribute ‘working-hours’ real

@attribute ‘pension’ {‘none’,'ret_allw’,'empl_contr’}

@attribute ’standby-pay’ real

@attribute ’shift-differential’ real

@attribute ‘education-allowance’ {‘yes’,'no’}

@attribute ’statutory-holidays’ real

@attribute ‘vacation’ {‘below_average’,'average’,'generous’}

@attribute ‘longterm-disability-assistance’ {‘yes’,'no’}

@attribute ‘contribution-to-dental-plan’ {‘none’,'half’,'full’}

@attribute ‘bereavement-assistance’ {‘yes’,'no’}

@attribute ‘contribution-to-health-plan’ {‘none’,'half’,'full’}

@attribute ‘class’ {‘bad’,'good’}

@data

1,5,?,?,?,40,?,?,2,?,11,’average’,?,?,’yes’,?,’good’

2,4.5,5.8,?,?,35,’ret_allw’,?,?,’yes’,11,’below_average’,?,’full’,?,’full’,'good’

?,?,?,?,?,38,’empl_contr’,?,5,?,11,’generous’,'yes’,'half’,'yes’,'half’,'good’

3,3.7,4,5,’tc’,?,?,?,?,’yes’,?,?,?,?,’yes’,?,’good’

3,4.5,4.5,5,?,40,?,?,?,?,12,’average’,?,’half’,'yes’,'half’,'good’

2,2,2.5,?,?,35,?,?,6,’yes’,12,’average’,?,?,?,?,’good’

3,4,5,5,’tc’,?,’empl_contr’,?,?,?,12,’generous’,'yes’,'none’,'yes’,'half’,'good’

3,6.9,4.8,2.3,?,40,?,?,3,?,12,’below_average’,?,?,?,?,’good’

2,3,7,?,?,38,?,12,25,’yes’,11,’below_average’,'yes’,'half’,'yes’,?,’good’

1,5.7,?,?,’none’,40,’empl_contr’,?,4,?,11,’generous’,'yes’,'full’,?,?,’good’

3,3.5,4,4.6,’none’,36,?,?,3,?,13,’generous’,?,?,’yes’,'full’,'good’

2,6.4,6.4,?,?,38,?,?,4,?,15,?,?,’full’,?,?,’good’

2,3.5,4,?,’none’,40,?,?,2,’no’,10,’below_average’,'no’,'half’,?,’half’,'bad’

這個例子來自於weka安裝目錄data文件下的labor.arff文件,來源於加拿大勞資談判的案例,它根據工人的個人信息,來預測勞資談判的最終結果。

文件中,“%”開頭的是註釋。剩餘的可以分爲兩大部分,頭信息(header information)和數據信息(data information)。

頭信息中,“@relation”開頭的行代表關係名稱,在整個文件的第一行(除去註釋)。格式是

@relation <relation-name>

“@attribute”開頭的代表特徵,格式是

@attribute <attribute-name> <datatype>

attribute-name是特徵的名稱,後面是數據類型,常用數據類型有以下幾種

1)numeric,數字類型,包括integer(整數)和real(實數)

2)nominal,可以認爲是枚舉類型,即特徵值是有限的集合,可以是字符串或數字。

3)string,字符串類型,值可以是任意的字符串。

從“@data”開始,是實際的數據部分。每一行代表一個實例,可以認爲是一個特徵向量。各個特徵的順序與頭信息中的attribute逐個對應,特徵值之間用逗號分割。在有監督分類中,最後一列是標註的結果。

某些特徵的數值如果是缺失的,可以用“?”代替。

數據挖掘流程

使用weka進行數據挖掘的流程如下圖

圖4.1 數據挖掘流程圖

其中,在weka內進行的是數據預處理,訓練,驗證這三個步驟。

1)數據預處理

數據預處理包括特徵選擇,特徵值處理(比如歸一化),樣本選擇等操作。

2)訓練

訓練包括算法選擇,參數調整,模型訓練。

3)驗證

對模型結果進行驗證。

本文剩餘部分將以這個流程爲主線,以分類爲示例,介紹使用weka進行數據挖掘的步驟。

5. 數據預處理

打開Explorer界面,點“open file”,在weka安裝目錄下,選擇data目錄裏的“labor.arff”文件,將會看到如下界面。我們將整個區域分爲7部分,下面將分別介紹每部分的功能。

圖5.1 Explorer界面

1)區域1共6個選項卡,用來選擇不同的數據挖掘功能面板,從左到右依次是Preprocess(預處理)、Classify(分類)、Cluster(聚類)、Associate(關聯規則)、Select attribute(特徵選擇)和Visualize(可視化)。

2)區域2提供了打開、保存,編輯文件的功能。打開文件不僅僅可以直接從本地選擇,還可以使用url和db來做數據源。Generate按鈕提供了數據生成的功能,weka提供了幾種生成數據的方法。點開Edit,將看到如下界面

圖5.2 arff viewer

在這個界面,可以看到各行各列對應的值,右鍵每一列的名字,可以看到一些編輯數據的功能,這些功能還是比較實用的。

3)區域3名爲Filter,有些人可能會聯想到特徵選擇裏面的Filter方法,事實上,Filter針對特徵(attribute)和樣本(instance)提供了大量的操作方法,功能十分強大。

4)在區域4,可以看到當前的特徵、樣本信息,並提供了特徵選擇和刪除的功能。

5)在區域4用鼠標選擇單個特徵後,區域5將顯示該特徵的信息。包括最小值、最大值、期望和標準差。

6)區域6提供了可視化功能,選擇特徵後,該區域將顯示特徵值在各個區間的分佈情況,不同的類別標籤以不同的顏色顯示。

7)區域7是狀態欄,沒有任務時,小鳥是坐着的,任務運行時,小鳥會站起來左右搖擺。如果小鳥站着但不轉動,表示任務出了問題。

下面將通過實例介紹Filters的各項功能。

點開Filter下面的choose按鈕,可以看到如下界面

圖5.3 filter方法選擇界面

Filters可分爲兩大類,supervised和unsupervised。supervised下的方法需要類別標籤,而unsupervised則不需要。attribute類別表示對特徵做篩選,instance表示對樣本做選擇。

1)case 1:特徵值歸一化

該項功能與類別無關,且是針對attribute的,我們選擇unsupervised -> attribute下面的Normalize。點開Normalize所在的區域,將看到如下界面。左邊的窗口,有幾個參數可以選擇。點擊more,將出現右邊的窗口,該窗口詳細介紹了此功能。

圖5.4 歸一化參數設置界面

使用默認參數,點擊ok,回到主窗口。在區域4選好將要歸一化的特徵,可以是一個或多個,然後點擊apply。在可視化區域中,我們可以看到特徵值從1到3被歸一到了0到1之間。

2)case 2: 分類器特徵篩選

該功能與類別相關,選擇supervised -> attribute下面的AttributeSelection。該界面有兩個選項,evaluator是評價特徵集合有效性的方法,search是特徵集合搜索的方法。在這裏,我們使用InformationGainAttributeEval作爲evaluator,使用Ranker作爲search,表示我們將根據特徵的信息增益值對特徵做排序。Ranker中可以設置閾值,低於這個閾值的特徵將被扔掉。

圖5.7 特徵選擇參數

點擊apply,可以看到在區域4裏特徵被重新排序,低於閾值的已被刪掉。

3)case 3:選擇分類器錯分的樣本

選擇unsupervised -> instance下面的RemoveMisclassified,可以看到6個參數,classIndex用來設置類別標籤,classifier用來選擇分類器,這裏我們選擇J48決策樹,invert我們選擇true,這樣保留的是錯分樣本,numFolds用來設置交叉驗證的參數。設置好參數之後,點擊apply,可以看到樣本的數量從57減少到了7。

圖5.10 參數設置

6. 分類

在Explorer中,打開classifer選項卡,整個界面被分成幾個區域。分別是

1)Classifier

點擊choose按鈕,可以選擇weka提供的分類器。常用的分類器有

a)bayes下的Naïve Bayes(樸素貝葉斯)和BayesNet(貝葉斯信念網絡)。

b)functions下的LibLinear、LibSVM(這兩個需要安裝擴展包)、Logistic Regression、Linear Regression。

c)lazy下的IB1(1-NN)和IBK(KNN)。

d)meta下的很多boosting和bagging分類器,比如AdaBoostM1。

e)trees下的J48(weka版的C4.5)、RandomForest。

2)Test options

評價模型效果的方法,有四個選項。

a)Use training set:使用訓練集,即訓練集和測試集使用同一份數據,一般不使用這種方法。

b)Supplied test set:設置測試集,可以使用本地文件或者url,測試文件的格式需要跟訓練文件格式一致。

c)Cross-validation:交叉驗證,很常見的驗證方法。N-folds cross-validation是指,將訓練集分爲N份,使用N-1份做訓練,使用1份做測試,如此循環N次,最後整體計算結果。

d)Percentage split:按照一定比例,將訓練集分爲兩份,一份做訓練,一份做測試。

在這些驗證方法的下面,有一個More options選項,可以設置一些模型輸出,模型驗證的參數。

3)Result list

這個區域保存分類實驗的歷史,右鍵點擊記錄,可以看到很多選項。常用的有保存或加載模型以及可視化的一些選項。

4)Classifier output

分類器的輸出結果,默認的輸出選項有Run information,該項給出了特徵、樣本及模型驗證的一些概要信息;Classifier model,給出的是模型的一些參數,不同的分類器給出的信息不同。最下面是模型驗證的結果,給出了   一些常用的一些驗證標準的結果,比如準確率(Precision),召回率(Recall),真陽性率(True positive rate),假陽性率(False positive rate),F值(F-Measure),Roc面積(Roc Area)等。Confusion Matrix給出了測試樣本的分類情況,通過它,可以很方便地看出正確分類或錯誤分類的某一類樣本的數量。

Case 1:使用J48對labor文件做分類

1)打開labor.arff文件,切換到classify面板。

2)選擇trees->J48分類器,使用默認參數。

3)Test options選擇默認的十折交叉驗證,點開More options,勾選Output predictions。

4)點擊start按鈕,啓動實驗。

5)在右側的Classifier output裏面,我們看到了實驗的結果。

圖6.1 Run information

上圖給出了實驗用的分類器以及具體參數,實驗名稱,樣本數量,特徵數量以及所用特徵,測試模式。

圖6.2 模型信息

上圖給出了生成的決策樹,以及葉子節點數、樹的節點數、模型訓練時間。如果覺得這樣不直觀,可以在Result list裏面右鍵點擊剛剛進行的實驗,點擊Visualize Tree,可以看到圖形界面的決策樹,十分直觀。

圖6.3 決策樹

再往下是預測結果,可以看到每個樣本的實際分類,預測分類,是否錯分,預測概率這些信息。

圖6.4 預測結果

最下面是驗證結果,整體的accuracy是73.68%,bad類準確率是60.9%,召回率70.0%,good類準確率是82.4%,召回率75.7%。

圖6.5 模型效果評估結果

7. 可視化

打開Explorer的Visualize面板,可以看到最上面是一個二維的圖形矩陣,該矩陣的行和列均爲所有的特徵(包括類別標籤),第i行第j列表示特徵i和特徵j在二維平面上的分佈情況。圖形上的每個點表示一個樣本,不同的類別使用不同的顏色標識。

下面有幾個選項,PlotSize可以調整圖形的大小,PointSize可以調整樣本點的大小,Jitter可以調整點之間的距離,有些時候點過於集中,可以通過調整Jitter將它們分散開。

圖7.1 plot matrix二維圖

上圖是duration和class兩個特徵的圖形,可以看出,duration並不是一個好特徵,在各個特徵值區間,good和bad的分佈差不多。

單擊某個區域的圖形,會彈出另外一個窗口,這個窗口給出的也是某兩個特徵之間分佈的圖形,不同的是,在這裏,通過點擊樣本點,可以彈出樣本的詳細信息。

可視化還可以用來查看誤分的樣本,這是非常實用的一個功能。分類結束後,在Result list裏右鍵點擊分類的記錄,選擇Visualize classify errors,會彈出如下窗口。

圖7.2 誤分樣本可視化

這個窗口裏面,十字表示分類正確的樣本,方塊表示分類錯誤的樣本,X軸爲實際類別,Y軸爲預測類別,藍色爲實際的bad,紅色爲實際的good。這樣,藍色方塊就表示實際爲bad,但爲誤分爲good的樣本,紅色方塊表示實際爲good,被誤分爲bad的樣本。單擊這些點,便可以看到該樣本的各個特徵值,分析爲什麼這個樣本被誤分了。

再介紹一個比較實用的功能,右鍵點擊Result list裏的記錄,選擇Visualize threshold curve,然後選好類別,可以看到如下圖形

圖7.3 閾值曲線

該圖給出的是分類置信度在不同閾值下,分類效果評價標準的對比情況。上圖給出的是假陽性比率和真陽性比率在不同閾值下的對比,其實給出的就是ROC曲線。我們可以通過選擇顏色,方便地觀察不同評價標準的分佈情況。如果X軸和Y軸選擇的是準確率和召回率,那我們可以通過這個圖,在這兩個值之間做trade-off,選擇一個合適的閾值。

其它的一些可視化功能,不再一一介紹。

8. 小結

本文僅僅針對weka的Explorer界面的某些功能做了介紹,Explorer其它的功能,比如聚類、關聯規則、特徵選擇,以及Experimentor和KnowledgeFlow界面使用,可以參考weka的官方文檔。

另外,weka支持擴展包,可以很方便地把liblinear、libsvm這樣的開源工具放進來。

在Linux下面,可以使用weka的命令行進行實驗,具體的使用方法,也請參考weka官方文檔。

有這樣一款開源、免費、強大的數據挖掘工具,你還在等什麼呢?沒有用過weka的數據挖掘工程師們,趕緊行動吧。

by weizheng

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章