Excel下的數據挖掘:學生成績統計分析實戰之總體分析

第1章 考試成績表總體分析

  • 【 前 言 】 2
    • 第1章 考試成績表總體分析 4
      • 1.1異常數據排查 4
      • 1.2利用“描述統計”對成績進行總體分析 5
      • 實例1-2 5

  本章將以初三年級的期中考試成績爲例,應用EXCEL中的數據透視表和數據分析中的描述統計功能,先對本次的成績進行總體分析。
  參考人數共652人,14個班,其中一名學生部分科目缺考,爲了保證學生的私密,對學生的姓名作了修改,其結構如表1.01所示,並命名數據表名稱爲“總表”。
表1.01 學生成績總表

1.1異常數據排查

  拿到了成績數據後,首先是要檢查數據的完整性,其次是對一些異常的數據進行排除。數據的完整性就是檢查成績數據是否缺漏,參考人數是否正確。異常的數據比如缺考的學生,得分爲0的或成績爲空值的,採用什麼方式進行排查呢?可以使用EXCEL中的篩選、排序等工具,對一些異常的數據進行隔離處理。對於不完整的數據信息,如果沒有考試過程中的記錄,還應該追查具體原因。在整理數據前,要注意做好原始數據的備份,以備對照檢查。

1.2利用“描述統計”對成績進行總體分析

  “描述統計”是EXCEL的【數據分析】中自帶的全面數據分析功能,利用此功能,可以非常快速地統計出數據的各項常見指標。

實例1-2

1、操作過程

  單擊【數據】菜單,在最右邊找到【數據分析】(如果沒有,請先加載,步驟是單擊【菜單】-【加載】,在彈出的窗口中選擇“加載項”-“分析工具庫”,單擊【確定】),單擊進入【數據分析】面板,選擇“描述統計”,進入【描述統計】窗口,如圖1.1.01所示,在“輸入區域”中選擇數據範圍,這裏是總分加上所有學科的數據區域,在輸出區域中選擇要輸出的位置,勾選要統計的各個選項,單擊【確定】,即得到本次考試的總體情況表,整理後如表1.1.01所示。增加了差異係數、難度和區分度三個指標,下面逐一解釋各指標的意義和作用。
圖1.2.01 描述統計面板
表1.2.01 成績總體情況分析表

2、統計指標
(1)平均分

  在統計學上稱爲平均數,在成績統計中,一般指簡單算術平均數,是一個最基本的特徵量數,指的是簡單地把一批數據總和除以數據總次數所得的商數[1]。
   在EXCEL中,常用AVERAGE,AVERAGEIF,AVERAGEIFS三個函數來統計平均分。
  在本例中,總分平均分是504.7745,標準誤差是5.2194,說明總分平均分在±5.2194之間的範圍內取值是有效的。

(2)中位數與衆數

  中位數指一組數中按大小排序,位於中間的數[2],在EXCEL中,求中位數的是MEDIAN函數;衆數是指總體中出現次數最多的標誌值[3],在EXCEL中,函數MODE用於求衆數。
   表裏的中位數是531,說明中間哪個學生的分數是531分;衆數是611,說明在611分這範圍的人數最多。

(3)標準差

  標準差是反映一個數據集的離散程度,指的是一組數據的離差平方和除以數據個數所得商的算術平均根[4]。在EXCEL中,可以通過函數STDEV(樣本標準差)或STDEVP(總體標準差)求得,一般計算樣本標準差即可。在這裏可以簡單理解爲標準差小的全級學生的成績跟平均值的距離比較小,反之則比較大。

(4)峯度、偏度

  峯度和偏度是反映數據分佈的參考值,峯度指數據分佈平峯或尖峯的程度,也叫峯態[5],正態分佈其參考值是3,低於3爲平峯,在這裏可以理解爲各分數段的人數較分散,大於3則爲尖峯,在這裏可理解爲某一分數段的人數較集中,偏度是反映不對稱分佈的偏態方向和程度的統計分析指標,也叫偏斜度,結合平均數、標準差,從另一角度描述了現象總體數據分佈的特點[6],當偏度值大於0,表示正偏,這裏可理解爲低於平均分的人較多,偏度小於0,則爲負偏,這裏可理解爲高於平均分的人較多。
在EXCEL中,峯度可以用函數KURT計算,偏度則可以用函數SKEW計算。
在這裏插入圖片描述

(5)區域

  區域是最大值和最小值的差,表示分值範圍。

(6)最大值和最小值

   最大值是指一組數據中最大的數,在這裏就是最高分,可用MAX函數計算。最小值是指一組數據中最小的數,就是最低分,在EXCEL用函數MIN可以求出。

(7)觀察數

  觀察數實質就是參加考試的學生人數,對於缺考的學生不作統計,從表中可以看到語文的考試人數是652人,而數學的考試人數是651人,說明數學科有一個學生缺考。

(8)差異係數

  差異係數是標準差和平均分的比值,是一種反映相對離散程度的係數,適合於不同性質數據的研究與比較[7]。本例中可看到數學的差異係數最大,可以理解爲是拉開成績距離最大的學科,而語文的差異係數最小,說明語文的成績相對較接近,也可以說數學的離散程度比語文的高。

(9)難度

  難度是反映被試完成題目或項目任務時所遇到的困難程度[8],可用計算得分率作爲難度的指標。難度P的計算公式爲:
  P=1-X/F
  其中X是該科平均分,F滿分表示該科的總分。
  從表中可看到數學的難度最大,而化學的難度最小。

(10)區分度

  區分度是題目區別初試水平的能力的量度[9],一般以字母D表示。計算方法爲:
  D=(X高-X低)/F
  X高和X低分別表示高分組的平均分和低分組的平均分,其比例一般是各佔總人數的27%,F是表示該題目的滿分值。
  一般來說,區分度低於0.2,必須修改或淘汰,而高於0.4,則處於優良級別,從表中可看到數學的區分度最好,語文和化學的區分度則屬於合格區間。從總體看,本次考試的區分度還是比較理想的,沒有出現極端的現象。
在這裏插入圖片描述

(11)置信度(95%)

是表示此統計的可信度爲95%,也就是說存在有5%的誤差。比如總分置信度(95%)的值是10.2488,說明其值的誤差範圍是在±10.2488之間。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章