系統可用性量表(System Usability Scale, SUS)

可用性量表很多(見下圖),SUS只是其中一個。 


SUS簡介:

量表作者:John Brooke  (DigitalEquipment Corporation, UK, 1986)

問卷組成:10個問題,在5點量表上打分

量表中文版以及計分方式:查看這裏

信度:0.85  (見上圖)

 

優點:

  • 問卷短,省時
  • 最後會得出一個分數,直觀
  • 免費
  • 對於小樣本( n<14),SUS的優勢更明顯(見下圖),圖中的意思:隨即抽取14名被試的SUS問卷均能判斷網站1比網站2要好,而抽取的CSUQ問卷只有90%能做出這個正確的判斷)

用途:

  • 同一個界面,完成不同的任務之間進行比較(因爲有的任務可能會更難或不常使用,例如安裝軟件這個操作可能只需執行一次,而不像其他操作那樣頻繁使用;用戶在完成不同類型和難度的任務之後,分別評多次SUS的分數,然後再進行對比,因爲如果所有任務只評一個SUS分數的話,可能會因爲某些任務較難而降低了評分);
  • 同一個界面,先後不同版本之間進行比較(不過需要注意的是增加新功能或改版後,用戶在初期可能會不適應,而導致SUS在短期內會下降,但長期會回升)
  • 備用方案之間、競品之間進行比較。
  • 不同種類的界面之間進行比較(例如同一個產品有PC版、網頁版、Android版、iSO版;或者百度地圖與微信之間比較)

(Bangor沒怎麼解釋爲什麼可以在不同任務、不同時間、不同界面之間進行比較)

 

如何解釋SUS分數?

1)SUS分數反映的是總體的可用性,單獨抽取某個題目的得分在產品之間作橫向比較意義不大

  理由:

  a)10道題目之間高度相關;

  b)Bangor等人在2008年的那篇paper中,通過因素分析結果發現,10道題只提取出一個因素 ;但2009年有研究者提出,SUS分數反映了總體的滿意度,同時第4和第10道題測量了易於學習性(learnability),而其他8道題測量了可用性。(詳見

 

2)如果某個界面的SUS分數爲76,這表示什麼?


解決方案一:

     AT&T Labs的Bangor,Kortum 和Miller在2009年發了一篇文章來解決這個問題。他們在SUS的結尾增加了1個問題(見下圖),讓用戶使用Poor、Ok、Good等形容詞來總體評價這個用戶界面,其用意是想將SUS與這些形容詞關連起來。

 以下是每個形容詞對應的SUS分數:按照這次的數據,被用戶評爲Good的那些界面,SUS的平均分爲71.4(標準差爲:11.6,感覺有點離散)。

      不過Bangor等人並沒有明確說,是否有足夠的證據來證明可以使用71.4或某個分數來判斷一個產品是否合格

解決方案二:

    就像GRE的分數一樣,將SUS分數轉換成percentile百分位數,解釋的時候就說:“比百分之xxx的其他界面的SUS分數要高”。(不過這需要一個相對較大的SUS分數庫)

     例如,由Jeff Sauro開發的SUS Package收集了500多個研究、5000多份SUS問卷。在這個分數庫中,如果SUS得分爲74,那麼它比500多個界面中的70%都要高(見下圖)


結合其他2篇paper中的SUS平均分,可以看出當一個界面的SUS得分爲78時,可以說它大約比75%的其他用戶界面都要好

a) Bangor, Kortum & Miller, 2009的研究中,3個百分數如下

    75%:77.8

    50%:70.5

    25%:62.6

a) Bangor, Kortum & Miller, 2008的研究中,3個百分數如下

    75%:78.5

    50%:70.9

    25%:62.3

 

如何報告SUS分數?

    可以參考一下Jeff Sauro的SUS Package

圖A:計算SUS,並區分出Usability和Learnability 2個維度

圖B:將SUS轉換成百分位數

圖C:比較SUS


SUS十年回顧

Bangor等人在2008年發的那篇論文,總結了從1996年開始,收集了206個研究、2324份SUS問卷(即2324個被試)。(注:以下內容以這篇paper爲主,同時輔以其他論文上的數據)

一、SUS分數的分佈

  •   2324份問卷的SUS平均分爲70.14,標準差21.71,取值範圍是0-100;206個研究的SUS平均分爲 69.69,標準差 = 11.87,取值範圍是30-93.9;
  •  2324份問卷的SUS分數呈負偏態分佈,206個研究的SUS平均分接近正態分佈


(注:Figure 2是直接計算2324個被試的2324份問卷的SUS平均分;

因爲一個研究大約會有10個被試左右,所以Figure3是先計算每個研究所有被試的SUS平均分,再計算這206個研究的平均分)

 

結合其他2篇paper和blog中的SUS平均分,可以看出當一個界面的SUS得分爲70時,可以說它達到了平均水平

  1. M=69.69   206個研究、2324份問卷    (Bangor, Kortum & Miller, 2009)
  2. M=69.69   273個研究、3500份問卷    (Bangor, Kortum & Miller, 2008)
  3. M=68        500個研究、>5000份問卷  (Jeff Sauro)

 

2)不同類型的界面測到的SUS分數差異不大

      將206個研究界面分成6類,方差分析發現,6類之間差異不顯著


3)SUS與任務完成率、完成時間不太相關

JeffSauro發現,SUS分數與任務完成率、完成時間的相關係數爲r=.24,屬於輕度相關(但原文中沒說是否顯著)。r=.24的意思是:任務完成率與完成時間這2個數值5.76%的方差可以用SUS分數來解釋(5.76%=0.24 x 0.24)。不知道Sauro是如何可以計算SUS與另外2個變量的相關,卻得出一個相關係數,而不是2個。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章