可用性量表很多(見下圖),SUS只是其中一個。
SUS簡介:
量表作者:John Brooke (DigitalEquipment Corporation, UK, 1986)
問卷組成:10個問題,在5點量表上打分
量表中文版以及計分方式:查看這裏
信度:0.85 (見上圖)
優點:
- 問卷短,省時
- 最後會得出一個分數,直觀
- 免費
- 對於小樣本( n<14),SUS的優勢更明顯(見下圖),圖中的意思:隨即抽取14名被試的SUS問卷均能判斷網站1比網站2要好,而抽取的CSUQ問卷只有90%能做出這個正確的判斷)
用途:
- 同一個界面,完成不同的任務之間進行比較(因爲有的任務可能會更難或不常使用,例如安裝軟件這個操作可能只需執行一次,而不像其他操作那樣頻繁使用;用戶在完成不同類型和難度的任務之後,分別評多次SUS的分數,然後再進行對比,因爲如果所有任務只評一個SUS分數的話,可能會因爲某些任務較難而降低了評分);
- 同一個界面,先後不同版本之間進行比較(不過需要注意的是增加新功能或改版後,用戶在初期可能會不適應,而導致SUS在短期內會下降,但長期會回升)
- 備用方案之間、競品之間進行比較。
- 不同種類的界面之間進行比較(例如同一個產品有PC版、網頁版、Android版、iSO版;或者百度地圖與微信之間比較)
(Bangor沒怎麼解釋爲什麼可以在不同任務、不同時間、不同界面之間進行比較)
如何解釋SUS分數?
1)SUS分數反映的是總體的可用性,單獨抽取某個題目的得分在產品之間作橫向比較意義不大
理由:
a)10道題目之間高度相關;
b)Bangor等人在2008年的那篇paper中,通過因素分析結果發現,10道題只提取出一個因素 ;但2009年有研究者提出,SUS分數反映了總體的滿意度,同時第4和第10道題測量了易於學習性(learnability),而其他8道題測量了可用性。(詳見)
2)如果某個界面的SUS分數爲76,這表示什麼?
解決方案一:
AT&T Labs的Bangor,Kortum 和Miller在2009年發了一篇文章來解決這個問題。他們在SUS的結尾增加了1個問題(見下圖),讓用戶使用Poor、Ok、Good等形容詞來總體評價這個用戶界面,其用意是想將SUS與這些形容詞關連起來。
以下是每個形容詞對應的SUS分數:按照這次的數據,被用戶評爲Good的那些界面,SUS的平均分爲71.4(標準差爲:11.6,感覺有點離散)。
不過Bangor等人並沒有明確說,是否有足夠的證據來證明可以使用71.4或某個分數來判斷一個產品是否合格
解決方案二:
就像GRE的分數一樣,將SUS分數轉換成percentile百分位數,解釋的時候就說:“比百分之xxx的其他界面的SUS分數要高”。(不過這需要一個相對較大的SUS分數庫)
例如,由Jeff Sauro開發的SUS Package收集了500多個研究、5000多份SUS問卷。在這個分數庫中,如果SUS得分爲74,那麼它比500多個界面中的70%都要高(見下圖)結合其他2篇paper中的SUS平均分,可以看出當一個界面的SUS得分爲78時,可以說它大約比75%的其他用戶界面都要好
a) Bangor, Kortum & Miller, 2009的研究中,3個百分數如下
75%:77.8
50%:70.5
25%:62.6
a) Bangor, Kortum & Miller, 2008的研究中,3個百分數如下
75%:78.5
50%:70.9
25%:62.3
如何報告SUS分數?
可以參考一下Jeff Sauro的SUS Package
圖A:計算SUS,並區分出Usability和Learnability 2個維度
圖B:將SUS轉換成百分位數
圖C:比較SUS
SUS十年回顧
Bangor等人在2008年發的那篇論文,總結了從1996年開始,收集了206個研究、2324份SUS問卷(即2324個被試)。(注:以下內容以這篇paper爲主,同時輔以其他論文上的數據)
一、SUS分數的分佈
- 2324份問卷的SUS平均分爲70.14,標準差21.71,取值範圍是0-100;206個研究的SUS平均分爲 69.69,標準差 = 11.87,取值範圍是30-93.9;
- 2324份問卷的SUS分數呈負偏態分佈,206個研究的SUS平均分接近正態分佈
(注:Figure 2是直接計算2324個被試的2324份問卷的SUS平均分;
因爲一個研究大約會有10個被試左右,所以Figure3是先計算每個研究所有被試的SUS平均分,再計算這206個研究的平均分)
結合其他2篇paper和blog中的SUS平均分,可以看出當一個界面的SUS得分爲70時,可以說它達到了平均水平
- M=69.69 206個研究、2324份問卷 (Bangor, Kortum & Miller, 2009)
- M=69.69 273個研究、3500份問卷 (Bangor, Kortum & Miller, 2008)
- M=68 500個研究、>5000份問卷 (Jeff Sauro)
2)不同類型的界面測到的SUS分數差異不大
將206個研究界面分成6類,方差分析發現,6類之間差異不顯著
3)SUS與任務完成率、完成時間不太相關
JeffSauro發現,SUS分數與任務完成率、完成時間的相關係數爲r=.24,屬於輕度相關(但原文中沒說是否顯著)。r=.24的意思是:任務完成率與完成時間這2個數值5.76%的方差可以用SUS分數來解釋(5.76%=0.24 x 0.24)。不知道Sauro是如何可以計算SUS與另外2個變量的相關,卻得出一個相關係數,而不是2個。