爲什麼“晚上9點鐘洗澡的大學生成績更好”?

大數據文摘投稿作品 作者:周濤,電子科技大學教授

教育在中國有着非常特殊的地位。在全世界還在盛行世襲制度和等級制度的時候,中國第一次通過科舉制度把受教育轉化爲沿着社會等級向上攀爬的一種途徑,從而使教育開始被賦予提高社會流動性的責任。

在中國有歷史記載的絕大多數時間裏,教育受到了極度的重視,教育家受到了極大的尊重,《國語》說:“……‘民生於三,事之如一。’父生之,師教之,君食之。非父不生,非食不長,非教不知生之族也,故一事之……”《荀子》講:“天地者,生之本也;先祖者,類之本也;君師者,治之本也。無天地,惡生?無先祖,惡出?無君師,惡治?三者偏亡,焉無安人。故禮,上事天,下事地,尊先祖,而隆君師,是禮之三本也。”所以我們祭祀的時候同拜“天地君親師”,從其他古代文明國度來看,這是獨特的。

最近幾十年,信息技術的發展讓優質的教育資源通過互聯網覆蓋到邊遠落後地區,教育的多樣性和趣味性也大幅度提高了。與此同時,教育過程中積累了大量的數據,使我們第一次有機會應用大數據的技術來理解學生行爲、助力學生髮展。接下來,舉個鮮活的例子來展示大數據的威力。

努力程度和生活規律,影響成績的兩大關鍵

用大數據分析助力K12教育的例子很多,但我所做的主要是針對大學生的研究,所以我想講一講如何通過學生在學校裏的行爲數據來預測他的考試成績[1]。

很多因素都會影響一個人的成績,比如身體狀態—特別胖對成績的影響就是負面的;又比如智商對成績影響很大—通常智商越高,成績越好;最近一些研究小組還找到了若干與成績好壞關聯很強的基因;另外,人口統計學屬性,比如家庭情況、黨團關係、民族、宗教信仰等都會產生或多或少的影響。我們爲什麼會關注行爲呢?因爲其他的因素我們改變不了或者不容易改變,比如說把可能導致成績不好的基因刪掉,這個太難了,相比之下,改變行爲要容易得多。

以前這方面的研究往往需要發放調查問卷,但這並不是一個很好的方法,一方面樣本量太小,另一方面被調查者不一定說真話。現在,通過信息技術可以得到大量非受控數據,例如Wi-Fi、智能手機或者校園一卡通中的數據。

我們在電子科技大學做了一項研究(見圖4-1),涉及18960名本科生的匿名數據,覆蓋了5個學期,包括3,380,567次洗澡、20,060,881次喫飯、3,466,020次進出圖書館和2,305,311次在教學樓打水的記錄。我們利用這些數據來刻畫一個學生的行爲特徵,例如努力程度和生活的規律性,然後再看這些特徵能否用來預測他的學習成績。

我們直接用進出圖書館的次數和在教學樓打水的次數來刻畫學生的努力程度,因爲這兩種行爲與上課及上自習緊密相關。刻畫生活的規律性要稍微複雜一點,需要用到真實熵。

爲什麼沒有選擇香農熵呢?度量洗澡的規律性是可以用香農熵的,因爲是看洗澡的時間在24小時中分佈得是否集中。但如果要度量喫飯,不僅要看時間分佈是否集中,還要看是否有序,比如喫早餐、喫午餐、喫晚餐,第二天再喫早餐、喫午餐、喫晚餐,這是有序的。如果今天吃了早餐不喫午餐,直接喫晚餐,第二天不喫早餐,喫午餐和晚餐,這樣就沒規律了。香農熵度量不了序列的規律性,只有柯爾莫哥洛夫第二熵能夠同時度量這個問題,但柯爾莫洛夫第二熵的計算很複雜,於是我們用真實熵做了一個近似[2]。

從圖4-1中可以看到,一個生活很有規律的學生,基本上都在晚上9點鐘洗澡。另外一個生活沒什麼規律的學生,除了凌晨2點半到5點半不洗澡外,其他時間好像隨時都可以去洗澡。去食堂喫飯的情況也與之類似,生活有規律的學生在8點左右、11點到12點之間、下午5點到6點之間去食堂刷卡喫飯,可能要喫十幾二十分鐘,這和學校課堂作息時間是高度一致的。而那個生活沒有規律的學生,除了晚上10點到清晨6點(這段時間學校食堂也不開門),其他時間隨時都可以去食堂刷卡,不一定是喫飯,可能就是買根烤腸、買杯水,但明顯沒有什麼規律。

充分利用研究得到的數據,包括以前的考試成績,我們可以很精確地預測一個學生的期末考試成績。如圖4-2所示,學生的努力程度和生活規律性與成績之間都有着很強的關聯。除了喫飯、洗澡的時間,我們還分析了很多特徵,包括學生睡覺的時間、睡覺的規律性以及和他行爲相似的同學的成績等,這些都與GPA(GradePointAverage,平均學分績點)有關係[3]。充分利用這些數據,包括以前的考試成績,我們就可以很精確地預測一個學生的期末考試成績排名。

整體性與多樣化的兩難選擇

我們的研究結果有助於人們理解影響學生成績的主要因素,對於實現個性化教育和學生管理具有重要意義。一方面,基於大規模非干預行爲數據得到的生活規律性指數,首次被發現與學生成績顯著相關,這一結果支持了東方教育和文化背景下對於課堂紀律性和生活規律性的特別強調。另一方面,通過分析行爲數據和計算學生嚴謹性指數能夠發現行爲異常的學生。例如,網絡遊戲成癮的學生表現出極不規律的生活作息,抑鬱和孤僻的學生更傾向於獨來獨往。我們的方法有助於教育管理人員及時察覺學生的異常行爲和心理問題,及早採取干預和幫助措施,更好地引導學生的校園生活。

舉例來說,一個學生上個月去圖書館20次,在教學樓打水30次,這個月只去了2次圖書館,在教學樓打水只打了5次,那麼我們就要關注一下他的情況了。在沒有這種針對過程數據的分析手段時,如果一個學生沉迷遊戲,第一學期考試可能勉強及格,第二學期可能有一兩科沒及格,這些現象當時沒有引起重視,等到一年多、兩年後,多科不及格的時候,再想改正就很困難了。行爲數據分析的好處是能夠及時通過異常變化發現問題,而不會有很長時間的滯後。

數據驅動下的教育革命正在靜悄悄地開展,實際上,這場革命將波及包括心理學、社會學、經濟學、管理學在內的很多原本是定性或者半定量的科學[4]。當然,這並不是一個一帆風順的過程,因爲教育和每一個對象息息相關,我們必須謹慎考慮隱私和倫理的問題。儘管我們已經通過技術手段避免數據分析人員獲知學生的身份信息,而只有輔導員能夠了解出現特定異常行爲的學生情況,但是這種信息披露的程度是否合理,在不同教育階段分別應該保護隱私到什麼程度,都還是值得探索和充滿爭議的問題。這種“大數據化”的教育系統在整體提高學生學習水平的同時,是否會減少學生思想行爲的多樣性,甚至壓制創造性,也是需要我們認真對待的問題。

本文摘自由湛廬文化編著出版的《那些比答案更重要的好問題》。

《那些比答案更重要的好問題》

湛廬文化 編著

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章