系統可用性量表（System Usability Scale, SUS）

原創

ibluedream

2018-08-31 06:32

可用性量表很多（見下圖），SUS只是其中一個。

SUS簡介：

量表作者：John Brooke (DigitalEquipment Corporation, UK, 1986)

問卷組成：10個問題，在5點量表上打分

量表中文版以及計分方式：查看這裏

信度：0.85 （見上圖）

優點：

問卷短，省時
最後會得出一個分數，直觀
免費
對於小樣本（ n<14），SUS的優勢更明顯（見下圖），圖中的意思：隨即抽取14名被試的SUS問卷均能判斷網站1比網站2要好，而抽取的CSUQ問卷只有90%能做出這個正確的判斷）

用途：

同一個界面，完成不同的任務之間進行比較（因爲有的任務可能會更難或不常使用，例如安裝軟件這個操作可能只需執行一次，而不像其他操作那樣頻繁使用；用戶在完成不同類型和難度的任務之後，分別評多次SUS的分數，然後再進行對比，因爲如果所有任務只評一個SUS分數的話，可能會因爲某些任務較難而降低了評分）；
同一個界面，先後不同版本之間進行比較（不過需要注意的是增加新功能或改版後，用戶在初期可能會不適應，而導致SUS在短期內會下降，但長期會回升）
備用方案之間、競品之間進行比較。
不同種類的界面之間進行比較（例如同一個產品有PC版、網頁版、Android版、iSO版；或者百度地圖與微信之間比較）

（Bangor沒怎麼解釋爲什麼可以在不同任務、不同時間、不同界面之間進行比較）

如何解釋SUS分數？

1）SUS分數反映的是總體的可用性，單獨抽取某個題目的得分在產品之間作橫向比較意義不大

理由：

a）10道題目之間高度相關；

b）Bangor等人在2008年的那篇paper中，通過因素分析結果發現，10道題只提取出一個因素；但2009年有研究者提出，SUS分數反映了總體的滿意度，同時第4和第10道題測量了易於學習性（learnability），而其他8道題測量了可用性。（詳見）

2）如果某個界面的SUS分數爲76，這表示什麼？

解決方案一：

AT&T Labs的Bangor,Kortum 和Miller在2009年發了一篇文章來解決這個問題。他們在SUS的結尾增加了1個問題（見下圖），讓用戶使用Poor、Ok、Good等形容詞來總體評價這個用戶界面，其用意是想將SUS與這些形容詞關連起來。

以下是每個形容詞對應的SUS分數：按照這次的數據，被用戶評爲Good的那些界面，SUS的平均分爲71.4（標準差爲：11.6，感覺有點離散）。

不過Bangor等人並沒有明確說，是否有足夠的證據來證明可以使用71.4或某個分數來判斷一個產品是否合格

解決方案二：

就像GRE的分數一樣，將SUS分數轉換成percentile百分位數，解釋的時候就說：“比百分之xxx的其他界面的SUS分數要高”。（不過這需要一個相對較大的SUS分數庫）

例如，由Jeff Sauro開發的SUS Package收集了500多個研究、5000多份SUS問卷。在這個分數庫中，如果SUS得分爲74，那麼它比500多個界面中的70%都要高（見下圖）

結合其他2篇paper中的SUS平均分，可以看出當一個界面的SUS得分爲78時，可以說它大約比75%的其他用戶界面都要好

a) Bangor, Kortum & Miller, 2009的研究中，3個百分數如下

75%：77.8

50%：70.5

25%：62.6

a) Bangor, Kortum & Miller, 2008的研究中，3個百分數如下

75%：78.5

50%：70.9

25%：62.3

如何報告SUS分數？

可以參考一下Jeff Sauro的SUS Package

圖A：計算SUS，並區分出Usability和Learnability 2個維度

圖B：將SUS轉換成百分位數

圖C：比較SUS

SUS十年回顧

Bangor等人在2008年發的那篇論文，總結了從1996年開始，收集了206個研究、2324份SUS問卷（即2324個被試）。（注：以下內容以這篇paper爲主，同時輔以其他論文上的數據）

一、SUS分數的分佈

2324份問卷的SUS平均分爲70.14，標準差21.71，取值範圍是0-100；206個研究的SUS平均分爲 69.69，標準差 = 11.87，取值範圍是30-93.9；
2324份問卷的SUS分數呈負偏態分佈，206個研究的SUS平均分接近正態分佈

(注：Figure 2是直接計算2324個被試的2324份問卷的SUS平均分；

因爲一個研究大約會有10個被試左右，所以Figure3是先計算每個研究所有被試的SUS平均分，再計算這206個研究的平均分)

結合其他2篇paper和blog中的SUS平均分，可以看出當一個界面的SUS得分爲70時，可以說它達到了平均水平

M=69.69 206個研究、2324份問卷 (Bangor, Kortum & Miller, 2009)
M=69.69 273個研究、3500份問卷 (Bangor, Kortum & Miller, 2008)
M=68 500個研究、>5000份問卷 (Jeff Sauro)

2）不同類型的界面測到的SUS分數差異不大

將206個研究界面分成6類，方差分析發現，6類之間差異不顯著

3）SUS與任務完成率、完成時間不太相關

JeffSauro發現，SUS分數與任務完成率、完成時間的相關係數爲r=.24，屬於輕度相關（但原文中沒說是否顯著）。r=.24的意思是：任務完成率與完成時間這2個數值5.76%的方差可以用SUS分數來解釋（5.76%=0.24 x 0.24）。不知道Sauro是如何可以計算SUS與另外2個變量的相關，卻得出一個相關係數，而不是2個。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

系統可用性量表（System Usability Scale, SUS）

拿鐵效應：前星巴克副總裁爲什麼跑去做移動應用？

社交共享應用Mobli用戶超200萬欲成下個谷歌

Android自動化測試解決方案

通往優秀UI設計師之路的20個路標

Android自動化框架API，方案及分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結