基於數據挖掘的高校個性化學生管理方案研究——以A高校數據集爲例(未發表,使用或引用前請提前告知)

基於數據挖掘的高校個性化學生管理方案研究——以A高校數據集爲例

馬  鑫

摘 要:高校信息系統中存儲着大量產生頻率非常迅速且類型繁雜的數據,傳統的高校學生管理模式已很難適用於我國現階段高校學生管理。依據數據挖掘算法理論,採用k-prototypes聚類算法代替傳統的人工貼標籤方式,爲預處理後的數據添加標籤,並在此標籤數據的基礎之上,通過分類迴歸樹CART對不同學生進行分類類別特徵挖掘,概括不同類別學生特徵,結合學生管理經驗提出有針對性的學生管理建議。

關鍵詞:數據挖掘;數據預處理;k-prototypes;數據標籤;CART;個性化學生管理

中圖分類號:D630.99    文獻標識碼:A

 

Research on individualized student management plan based on CART DECISION TREE:Taking a university data set as an example

 

Abstract: The university information system stores a large number of unstructured data with very rapid frequency. The traditional college student management model has been difficult to apply to the current student management in China. According to the data mining algorithm theory, the k-prototypes algorithm is used instead of the traditional manual labeling method to label the pre-processed data. Based on the label data, the classification and classification feature mining of different students is carried out by the classification regression tree CART. The paper further summarizes the characteristics of different categories of students, and puts forward targeted student management suggestions based on student management experience.

Key words: data mining; Data preprocessing; k-prototypes; Data tag; CART; Personalized student management

 

0 引 言

高校學生從入學、軍訓、生活到畢業等整個的活動週期,在學校的各個信息系統如圖書館管理、教務考覈、學生管理、超市管理、宿舍管理、體育管理、就醫管理以及學生檔案管理等諸多信息系統中都會存儲下各種結構的歷史數據。然而,傳統的信息系統不論是在施行效率還是數據應用等多方面已不能滿足當代學生管理的要求。發掘高校數據中的潛在價值,找到學生舉動之間的內在聯繫,思索這些舉動背後的邏輯關係,做出適當的管理決策,實現對高校學生個性化的管理顯得尤爲迫切。

本文將數據挖掘算法應用於高校學生管理系統,充分利用數據挖掘相關技術,從已知信息系統中存儲的與學生有關的大量歷史數據着手,挖掘數據當中潛在的有用信息,進而對學生進行分類,總結同一類別不同對象之間的共同特徵,根據學生同一類別的共有特徵針對性的制定個性化的學生管理方案,實現以人爲本的差異化管理模式,輔助確立及時、周全的教學管理體系。以期望提高高校學生管理工作精細化水平,促進高校管理工作的科學性,爲高校教務工作舔磚加瓦。

1 數據預處理

數據預處理欲解決的問題是將未進行任何加工的數據轉換成適合進行分析的形式,通常耗費大量的時間和精力,且需要人爲經驗的干預,是數據挖掘過程當中十分重要的一步[1]。在進行數據挖掘之前,需要對原始數據進行抽取、簡化、清洗和轉換等操作,提高數據挖掘結果的準確度。

1.1 數據抽取

數據抽取是指從原始數據中目標數據源體系必要的數據。現實當中,數據抽取主要是從關係型數據庫中抽取,包括:增量抽取和全量抽取兩種方式。本文爲儘可能保留原始數據,採用增量抽取的方式進行抽取,將A校信息系統中的數據原封不動的抽取出來,最大限度的保留數據的“原貌”。

1.2 數據簡化

本文研究的主要目的是對學生進行分類管理,對於student_guardian(監護人)、schoolsup(學校中額外的教育支出)、famsup(家庭中額外的教育支出)、paid(課程內的額外付費課程)、nursery(是否就讀過託兒所)、romantic(是否戀愛)、famrel(家庭關係質量)、freetime(課後空閒時間)、Dalc(上課期間飲酒)、Walc(週末飲酒)等與目的無關或者主觀性較大對挖掘結果造成影響的屬性進行刪除操作。

1.3 數據清洗

   
 

表1  部分缺失值數據展示

index

school

family_size

medu

fedu

choose_reason

travel_time

1107203

3

GT3

3

2

課程原因

 

1107203

3

GT3

3

3

課程原因

1

1107206

3

GT3

4

 

學校名氣

1

10110125

1

GT3

4

4

其他

1

 

 
 

表2 部分異常值數據展示

index

school

family_size

medu

fedu

choose_reason

travel_time

1107203

3

GT3

3

2

課程原因

1

1107203

3

GT3

3

3

課程原因

1

1107206

3

GT3

4

2.5

學校名氣

1

10110125

1

GT3

4

4

其他

1h

 

 
 

表3 部分重複數據展示

index

school

family_size

medu

fedu

choose_reason

travel_time

1402229

3

GT3

2

2

家庭原因

1

1402229

3

GT3

2

2

家庭原因

1

1107206

3

GT3

3

4

學校名氣

1

10110126

2

GT3

2

4

其他

1

數據清洗的目標是爲之後的數據挖掘提供完備有用正確的數據,提高數據挖掘的效率[2]。相反,數據清洗不完善,結果也會存在諸多誤差。本文所用數據爲數據庫中導出數據,此中存在少量的缺失數據、錯誤的數據和重複數據。

缺失型數據主要集中在travel_time(空閒時間)、medu(母親學歷水平)以及fedu(父親學歷水平)等屬性值。本文采用插補法方式對缺失值進行處理,medu等定距類型數據通過計算均值進行插補,travel_time等非定距類型數據通過統計頻數進行插補[3]。例如:medu的取值類型有四種1、2、3、4,缺失值則爲該屬性存在值的平均值2.5;travel_time當中通過統計發現空閒時間爲1小時的頻率最高,則空缺位置的值填補爲1。而重複型數據和同一屬性取值形式不同的錯誤型數據,本文的處理方式是通過SQL語句在數據庫中進行相應處理。

1.4 數據轉換

構造和添加index(對象編號)和G3(G1和G2兩學期的平均成績)兩個新的屬性,以使得數據更易於進行數據挖掘,提高挖掘精度和高緯數據結構的理解[4]

2 數據標籤的張貼

傳統的數據標籤張貼方式主要有自貼標籤、專家貼標籤和“羊毛出在豬身上(藉助某種客戶端通過用戶來實現)”等方式。然而,這些方式不但費時費力,而且在應用場景中也有諸多限制,例如:“羊毛出在豬身上”這種標籤張貼方式,不僅要求具備一個相應的客戶端,同時該客戶端需要具備一定基數的用戶[5]

而本文則採用聚類的方式爲每一個數據對象貼標籤。比較常見的聚類分析算法所對應的數據類型主要包括數值數據、分類數據和混合型數據。k-prototypes算法綜合了k-means算法和k-modes算法優點,採用一種嶄新的距離計算公式,能夠快速的處理混合數據集的聚類分析問題[6]。類似於k-means算法當中的誤差平方和(SSE),k-prototypes算法設定了一個最優函數,簇中心不斷進行迭代,直到目標函數值不發生變化。目標函數爲:

E=l=1ki=1nuildxi,Ql                                    (1)

上式中uil可理解爲第i個對象分類屬性的權重,Ql可理解爲當前迭代中的簇中心,xi爲樣本中對象,n表示樣本中對象的個數,j表示對象的維數。

2.1 算法設計

X=X1,X2,X3,…,Xn表示學生表現數據集中n個學生對象n=1, 2, 3, …, 395,在這其中Xi表示一個具有屬性A1,A2,A3,…,Am的學生數據對象m=1,2,3,…,23。對於數值型屬性值,採用連續型的值進行表示,分類型的屬性值採用有限且無任何順序的值的集合進行表示,即使用DomAj=aj1,aj2,…,ajt對分類屬性取值進行表示,其中t爲Aj的可能取值的個數。綜上所述Xi可表示爲常見的向量的形式[xi1,xi2,…,xim]。

設k爲一個正整數,表示k-prototypes算法需要將源數據集X聚類爲k個簇,也即選擇k個初始聚類中心。該聚類算法的聚類準則爲最小化目標函數:

EY,Q=l=1ki=1nyildxi,Ql                                (2)

上式中dXi,Ql爲差異度,其可定義如下:

dXi,Ql=j=1mdxij,qlj                                 (3)

其中dxij,qlj的取值又可分爲:

dxij,qlj=xijr-qljr2 ,m=rγlδxijc,qljc , m=c                              (4)

上式當中xijrqljr爲數值屬性,xijcqljc爲分類屬性,r和c分別爲數值變量和分類變量的個數。同時,通過計算可以發現,當xijc=qljc時,δxijc,qljc的值爲0,反之則δxijc,qljc爲1;其中需要重點說明的是γl爲混合數據類型當中分類屬性的權重,分類屬性相對重要,權重值則大;分類屬性相比於輸指數型不是那麼重要,權重則小。當xij爲數值屬性時,qlj代表的是第l個簇中第j個屬性的均值;當xij是分類屬性時,qlj代表的是第l個簇中第j個屬性的對應模式。

2.2 k值的選擇

聚類結果在很大程度上取決於k值的選擇,k值過大或過小都會對聚類結果產生巨大的影響。本文采取手肘法確定k的取值。該方法的核心思想是隨着初始聚類書k的輸入不斷增大,樣本數據的分類精細度會不斷提高,也即簇的聚類程度不斷提高,SSE逐漸減小。而且,當k小於樣本數據真實的聚類數時,隨着k數值的增長會大幅度的增加各個簇的聚合程度,SSE降低的幅度增大;當k在樣本真實的聚類數週邊浮動時,隨着k的增加,聚合程度的回報會銳減,後隨着k值輸入的增大麴線逐漸變得平緩。

因而,SSE和k的干係圖爲手肘狀的外形,手肘狀的頂點對應的k值則爲學生數據對應的真實聚類數。手肘法的主要判斷依據是SSE(誤差平方和):

SSE=i=1kpcip-mi2                                (5)

上式中,ci表示第i個簇,p爲簇ci中的樣本,mici的質心(ci中整個樣本的均值),SSE也可代表全部樣本的聚類偏差,代表了聚類結果的好壞。

mi=1nij=1nipj                                    (6)

此中ni表示第i個簇中樣本的個數,pj表示第i個簇中樣本對象的個數。在某個簇ci質心的計算過程中,數值型數據直接求均值,分類型數據則通過頻數的方式確定質心對應屬性的屬性值;分型屬性做差時,屬性值相同爲0,不同爲1。

 

2.3 聚類結果展示

通過循環遞增設置k值,爲每一個聚類結果計算一個誤差平方和SSE,通過比較發現當k=6時聚類結果的反饋程度最高,也即k=6爲聚類最佳k值。k-prototypes算法的最終聚類結果如圖2,該算法將本科生數據樣本分爲6個簇,每個簇對應的比例分別爲22.8%,22.5%,15.7%,14.4%,13.7%,10.9%,最小與最大簇之間的比值爲2.09。

 

3 基於CART的分類特徵挖掘

單從聚類結果的可視化數據當中很難找到某些確切的描述同一類別不同學生對象的共有特徵,因此本文采用分類迴歸樹CART決策樹對其進行特徵挖掘,選擇決策樹構建較爲重要的前幾個特徵對不同學生類別進行描述,進而提出個性化的學生管理方案。

3.1 分類尺度確定

在決策樹當中有一個重要性程度非常高的問題,那就是如何選擇原始數據集當中哪一個特徵在劃分數據分類時起到相對重要的作用,即“樹”在“分叉”時應該參照什麼屬性進行“分叉”。本文采用CART(分類及迴歸樹),該算法選取劃分數據的特徵時不同於傳統的ID3以及C4.5等決策樹算法採取信息熵來劃分數據集,至於如何分割,則由目的變量的類型決定。假設是分類變量,Gini或Twoing任意選擇,若爲連續變量(數值),則自動確定方差來選擇分割點[7]。本文分類變量選用Gini係數確定分類尺度。

Gini係數[8]計算公式如下:

Gt=1-t1T2-t2T2-…-tnT2                              (7)

上式中,t1,t2,…,tn代表每個類別的記錄數,T爲總記錄數,本文數據中即樣本總量(理論上來說)。在CART算法當中,採用Gini係數的減少量來確定當前節點的分裂標準:

Gt=Gt-n1N*Gt1-n2N*Gt2                              (8)

其中,n1爲左子樹的記錄數,n2爲右子樹的記錄數,N=n1+n2。另外,由於CART算法僅能建立二叉樹,則對於分類多與兩種的類別,首先需要先將多於的類別值合併爲兩個,進而形成超類,然後計算∆Gt。以上的Gini係數是針對分類型變量,而針對連續型變量,必須首先將連續型變量升序排列,分別以相鄰兩個數值型數據的中心值作爲分支尺度,分別計算左右子樹的∆Gt

以根結點的劃分爲例:第一步,計算全部數據的差異度Gt=1-392852-…-402852=0.819034Gt1=0.666578Gt2=0.618272;第二步,計算根結點以特徵sex(男or女)劃分後的GtGt=0.8190-150/(285*0.6667)-135/(285*0.6183)≈0.175;第三步,遍歷數據集所有屬性及其對應的屬性值,計算出一系的Gt,最大的Gt對應的屬性和屬性值則爲最佳分割點。

 

3.2 分類特徵挖掘

通過最終的決策樹可視化結果分析,sex(學生性別)、activities(是否參加活動)、choose_reason(擇校原因)、medu(母親受教育程度)四個屬性能夠更加迅速的構建決策樹,且對決策樹的影響程度依次下降。需要特別指出的是,圖4中的“改進=0.175”指的是最佳分割點所對應的Gt

 

4 特徵描述與管理方案研究

4.1 “天才型”學生

針對簇2,本文稱之爲天才型學生。此類學生一般爲男生、喜歡參加課外各種活動、擇校原因多爲學校名氣、父母受教育程度高且多爲大學及以上學歷、城鎮戶口、宿舍中有上網設備以及成績優秀等共同特徵。針對此類學生,本文給出以下管理建議:

(1)善於引導

老師或者學校教學管理人員可爲此類同學提供一些幫扶平臺,讓其能幫扶其他同學,這樣既可以給這類學生自信,又能給他們提供一份責任,傳播自己的各方面的成功經驗。

(2)懂得寬容

此類學生由於各方面能力出衆,父母疼愛,在自主能力和辨別能力上會有所欠缺,作爲老師或學校教學管理人員應多一些寬容,培養這類學生自主安排學習和各方面實物的能力,畢竟知錯能改善莫大焉。

(3)培養寬鬆的師生關係

在這類學生的管理過程中,不管是老師還是其他的教學管理人員,都應該提升自己的創造力、想象力和創新性,在學生心目當中樹立亦師亦友的個人形象。

4.2 “自我否定型”學生

針對簇4,本文稱之爲“自我否定型”學生。此類學生大多數爲平時不愛參加課外活動、選擇某個學校看中的則是課程情況、父母受教育程度低、農村戶口、家庭條件較差、宿舍無上網設備、成績極差的男生(佔比84%)。此類學生受到家庭對於教育觀念的曲解,其對學習有一種牴觸情緒,年齡相對於同一級的學生來說偏大,生活相對拮据;對外界缺乏一些瞭解的渠道(互聯網),過分的貶低自身的能力,是老師的“眼中釘,肉中刺”。針對這一類學生,本文給出以下管理建議:

(1)真誠的關心

這一類學生由於從小受到生活條件和家庭觀念等的約束,不能正確的認識自己的能力,過分的自卑,從小接觸的教學資源不足,學習能力較低,作爲老師和教學管理人員應當爲他們提供一個展示風采的平臺,引導其樹立起強大的自信心,幫助其逐漸建立起對學習的興趣。

(2)善於發現閃光點,並實時的給與讚賞[9]

逐漸的改變其對學習的認識,充當其與外界聯繫的“媒介”。

4.3 “理工型”學生

針對簇3,本文稱之爲“理工型”學生。此類學生,一般爲平時不愛參加活動、擇校主要是聽從家人的安排、父母受教育程度高、城鎮戶口、宿舍有固定上網設備且成績較爲優秀的男生。這個羣體的學生被認爲是“宅而木訥”但智商超高的一羣人,喜歡挑戰電腦遊戲,狂熱於電子產品,缺少人際交往的一些必備常識(不願參加一些課外活動)。通過與“天才型”學生對比發現,該類學生課下花在學習上的時間更少,但成績卻出乎預料的好,微低於“天才型”學生。針對這一類學生,本文給出以下管理建議:

(1)學習之餘多體貼學生生活

此類學生雖然智商超高,但是生活不休邊幅,呆板無趣,影響他們的不是學習有多困難,而是怎樣與他人溝通交流。作爲老師或學校的管理人員應多關心他們的生活,幫助其樹立正確的價值觀,處理好電子遊戲與學習之間的關係,防止該類型學生向更加糟糕的情況轉化,因爲高校中因爲遊戲而引發的留級和輟學時間屢見不鮮。

(2)激勵引導其多與外界接觸

幾天甚至幾周都不出宿舍不下牀的高校學生大有人在,這不僅不利於學生自身的健康,人際關係的營造,也不利於學生的學習和自我提高。因而,老師和學校的相干管理人員都應當展開一些有利於學生之間彼此溝通和交流的活動,豐富該類學生的空閒生活,轉變其“電腦,宿舍,遊戲足以!”的思想觀念,全身心的投入到學習生活當中。

4.4 “勤奮自覺型”學生

針對簇1,本文稱之爲“勤奮自覺型”學生。此類學生多爲平時不願參加活動、擇校主要是衝着學校課程安排、父母學歷較高、城鎮戶口、宿舍有固定上網設備、成績較低的女生。此類學生家庭條件良好,雖就智商來說可能不及“理工型”或“天才型”學生,但是卻認真刻苦,懂得“知識改變命運”的思想,能自覺維護上課紀律,在課堂上能與老師進行良性交流,能充分利用課下時間進行學習,懂得勞逸結合,日復一日的匆匆穿梭於宿舍和教室之間。針對這一類學生,本文給出以下建議:

(1)在該類學生當中樹立一種勤奮上進的形象

這一類學生由於勤奮上進,大把時間用來學習,以至於在一部分學生眼中她們是另類。這個時候老師和學校的相關管理人員應以身作則,勤奮是一種優秀的品質,樹立起身邊的榜樣。

(2)及時解答學習上的困惑

該類學生勤奮好學,能夠合理的安排自己的學生和生活,日常生活當中學習是其“主戰場”,而最令其頭疼的問題則是“這個地方實在是想不出來”“這種問題我應該怎麼考慮”“我應該從什麼角度入手”“從哪裏開始學習”等問題,這個時候學校相關管理人員或老師則應及時的爲其解答疑難困惑,不定期開展一些學習經驗交流會,爲其分享相關的學習經驗。

4.5 “學習方法欠佳型”學生

針對簇5,本文稱之爲“學習方法欠佳型”學生。這一類學生多爲空餘時間積極參加課外活動、擇校主要考慮的是學校名氣、父母學歷較高、城鎮戶口且家庭條件良好的女生(單親家庭佔比6.7%)。此類學生學習認真刻苦,有非常高的學習慾望,積極參加各類活動,渴望成爲全能型學生,但成績總不理想,變化波動較大。針對這一類學生本文給出如下建議:

(1)授人以漁

這一類學生學習態度端正,對知識的渴求之高常人無法想象,但學習方法欠佳。老師或學校教學管理人員可充分發揮“天才型”學生的作用,開展一對一幫扶,逐漸的幫助這一類學生找到正確的學習方法。

(2)努力沒有錯,錯在方法

這一類學生花費在學習上的時間非常多,但效果幾乎爲0,因此其開始懷疑自己的能力,懷疑自己是不是比別人笨,更嚴重的甚至有開始厭學的傾向,情況之嚴重應當引起足夠的重視。作爲老師,可以多體貼這類學生,輔助他們找到合適自身的學習方法;作爲學校教學管理人員,可以開展一些心理講座之類的活動,幫助有認識問題的學生走出誤區。

4.6 “偏執型”學生

針對簇6,本文稱之爲“偏執型”學生。這一類學生多爲平時不願參加活動、擇校主要聽從家人安排、父母雙方學歷較高、城鎮戶口、宿舍有固定上網設備、成績良好且家庭條件優越的女生(單親家庭佔比20.4%)。此類學生及其富有主見,不愛學習,認爲學習無用,經常曠課,一有空閒時間就用來“豐富自我”,經常去圖書館看一些小說之類的書籍,追劇等。她們高度自信,認爲學習無用不如通過其他方式提高自己。這一類學生主要受教育功利性觀點的影響,認爲教育的投入與產出不對等,覺得就算大學畢業也不好就業,就算就業了工資也不高,所以他們認爲學習無用。這部分本科生的學習目的非常的膚淺,學習完全是被動的,其學習方式以應付爲主,普遍認爲無所謂,學習效率低下。針對這一類學生,本文提出以下建議:

(1)施壓

對學生不作爲的舉動直接進行點名指責,或公開做反省。

(2)逼迫其直麪人生

作爲老師,課堂上可以偶爾分享一些長期抱有學習無用態度且多年後一事無成得不到別人尊重的人的反例;作爲學校教學管理人員,則可對這一類學生進行抽查點名,定期通報等方式,催促他們學習。

(3)規劃人生。

這個工作完全可以通過學校開設的相關課程進行講解,比如《大學生生涯規劃》等課程。

5 總結

將數據挖掘引入高校信息系統是現階段高校學生管理的發展趨勢[10-12]。本文從高校教務管理信息系統中的歷史數據出發,在預處理數據的基礎之上,採用手肘法確定聚類最佳k值,進而通過聚類算法k-prototypes算法替換傳統的標籤張貼方式爲每一數據對象添加標籤(省時省力,且準確性高);並應用分類迴歸樹CART算法挖掘不同標籤之間的特有特徵,對同一標籤中不同對象之間的共有特徵做出精確描述,進而針對每一標籤提出針對性的個性化管理建議。

本文通過挖掘高校信息系統中的數據,將數據轉化爲知識,可以促進高校學生管理工作的提升,在構建符合現代高校學生教務管理新模式,全面提升學生培養質量方面具有一定的參考價值。

[參考文獻]

[1]黃航輝. 互聯網訪問數據預處理研究與應用[D].東華大學,2014.

[2]董瀟瀟,胡延,陳彥萍. 基於校園數據的大學生行爲畫像研究與分析[J]. 計算機與數字工程,2018,46(06):1200-1204+1262.

[3]楊帆,龐新生. 處理缺失數據的分數插補法研究[J]. 統計與決策,2017(14):15-18.

[4]馮柳偉. 基於近鄰的聚類算法研究[D].北京交通大學,2018.

[5]Ti S U, Yang M, Wang C X, et al. Classification and Regression Tree Based Traffic Merging for Method Self-driving Vehicles[J]. Acta Automatica Sinica, 2018.

[6]徐健. 基於改進型K-prototypes算法的雲服務推薦研究[D].合肥工業大學,2017.

[7]李亞芳. K-means型社區發現方法研究[D].北京交通大學,2017.

[8]Ti S U, Yang M, Wang C X, et al. Classification and Regression Tree Based Traffic Merging for Method Self-driving Vehicles[J]. Acta Automatica Sinica, 2018.

[9]譚凱茵. 教育要滋潤學生的心田[J]. 讀與寫(教育教學刊),2018,15(05):177.

[10]葛璐瑤.改進的決策樹ID3算法及應用[J/OL]. 電子技術與軟件工程,2018(13):153-154[2018-07-23].http://kns.cnki.net/kcms/detail/10.1108.TP.20180710.0913.212.html.

[11] Choubin B, Zehtabian G, Azareh A, et al. Precipitation forecasting using classification and regression trees (CART) model: a comparative study of different approaches[J]. Environmental Earth Sciences, 2018, 77(8):314.

[12]柯玲. 高校教務管理信息化和科學化建設的思考[J]. 信息技術與信息化,2018(Z1):171-173.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章