標(biāo)準(zhǔn)化量表在可用性測試中的應(yīng)用

1. 前言：

這篇文章是個人對當(dāng)前可用性測試中常用標(biāo)準(zhǔn)化量表的學(xué)習(xí)和整理南窗。整體架構(gòu)參照Sauro and Lewis (2012)的《Quantifying the User Experience : Practical Statistics for User Research》。本文中大部分?jǐn)?shù)據(jù)源于量表的官網(wǎng)或論文枪蘑，部分則引用于該書皇拣。

圖1-1.量表初步總結(jié)

標(biāo)準(zhǔn)化量表和普通的問卷有什么區(qū)別：

a．標(biāo)準(zhǔn)化：（廢話）量表的標(biāo)準(zhǔn)化意味著該量表的不會存在信效度缺失的問題逊谋，能夠正確測量其想要測量的各個因子水平帖池；

b．嚴(yán)謹(jǐn)：量表的問題/計分方式/分?jǐn)?shù)解釋是經(jīng)過嚴(yán)格確定的盾剩，基本不存在為了分?jǐn)?shù)解釋而撕逼的情況；盡管大部分量表都表明可以按照需求增加或減少測試項目访圃，但這對量表的總體信效度還是存在影響的厨幻；

c．量化數(shù)據(jù)：上述量表大多支持將分?jǐn)?shù)轉(zhuǎn)化為百分制，百分等級等等，便于進(jìn)行統(tǒng)計分析况脆、與非專業(yè)人員溝通和解釋數(shù)據(jù)含義饭宾；

在可用性測試中，研究人員關(guān)注用戶在測試過程中的表現(xiàn)和體驗格了。在整個測試完成后完成相關(guān)的量表被稱為測試后評估量表（Post-Study Questionnaire）看铆，而在每個任務(wù)后完成的相關(guān)量表被稱為任務(wù)評估量表（Post-Task Questionnaire）。另外笆搓，有專門用于測試網(wǎng)站可用性的相關(guān)量表性湿。

2. 測試后評估量表：

在使用量表時，分?jǐn)?shù)的解釋可以通過3個方法獲得满败。1.建立產(chǎn)品的可用性基線肤频，用于設(shè)定產(chǎn)品迭代/改善時的可用性目標(biāo)；2.測試相同的任務(wù)算墨，比較競品與產(chǎn)品間的可用性差異宵荒；3.與現(xiàn)有的數(shù)據(jù)庫對比，評判產(chǎn)品在整體行業(yè)中的可用性情況（部分量表不提供官方數(shù)據(jù)庫）净嘀。

圖2-1.測試后評估量表概覽

2.1 系統(tǒng)可用性量表（SUS报咳，System Usability Scale）：

SUS最初發(fā)表于1986年，總共包括10個項目挖藏，包括5積極描述和5個消極描述暑刃。 Lewis and Sauro (2009)將其中8個項目歸類于‘可用性（Usable）’，另外2個項目為‘可學(xué)性（Learnable）’膜眠。SUS的總體信度為0.92岩臣，其中可用性項目的信度為0.91，易學(xué)性項目的信度為0.7宵膨。

量表的全部項目采用從‘強烈不同意’到‘強烈同意’的5點評分架谎。用戶的最終作答將被轉(zhuǎn)化為一個百分制的分?jǐn)?shù)。其計算方式為：[Σ（積極描述得分-1）+Σ（5-消極描述得分）]*2.5辟躏。

Bangor, Kortum, and Miller (2009)通過將SUS分?jǐn)?shù)與一個7點的形容詞評估想關(guān)系谷扣，將SUS評分劃分了從F(<60)-A(>90)的5個等級。形容詞評定和SUS分?jǐn)?shù)之間的相關(guān)達(dá)到0.822捎琐，如圖2-2（上）会涎。

而通過整理SUS的相關(guān)測試，Lewis and Sauro (2009)提供了一個的從F(<51.7)到A+(>84.1)的11個等級瑞凑，如圖2-2（下）末秃。此外，Lewis and Sauro (2009)還提供了積極版的SUS（全部項目采用積極描述）拨黔，其信度達(dá)到0.96蛔溃，與原版0.92的信度并不存在顯著差異。（PS：這些人做等級的時候都把E跳過了...是有什么故事么...）

圖2-2. SUS分?jǐn)?shù)等級（Bangor et al. ,上篱蝇；Lewis & Sauro,下）

2.2 用戶交互滿意度問卷QUIS(Questionnaire for User Interface Satisfaction):

根據(jù)官方描述贺待，QUIS包括常用的簡版和更為全面的長版。其項目分為兩個模塊零截。首先是總體評估麸塞，包括6個語義差異評級。其次是分類評估涧衙，其中簡版包括界面哪工，術(shù)語和系統(tǒng)信息，可學(xué)習(xí)性弧哎，系統(tǒng)能力四個部分雁比，最多可達(dá)41個項目；而長版還包含有技術(shù)手冊和在線幫助撤嫩，在線教程偎捎，多媒體應(yīng)用，電信會議及軟件安裝5個部分序攘，最高可達(dá)122個項目茴她。

根據(jù)其官網(wǎng)提供的27個項目的簡版QUIS，研究者發(fā)現(xiàn)其總體信度可達(dá)0.94程奠。盡管相較于SUS丈牢，QUIS的項目比較多，事實上該量表支持使用者根據(jù)自身的需要添加或刪減測試項目瞄沙，并且提供付費的數(shù)據(jù)庫比對服務(wù)己沛。

QUIS的項目均是采用9點的語義差異評級，通過計算各個分類的平均分和標(biāo)準(zhǔn)差來進(jìn)行對比帕识。在其官網(wǎng)可以找到更多關(guān)于數(shù)據(jù)分析的指導(dǎo)泛粹。

（官網(wǎng)：http://lap.umd.edu/quis/）。

2.3 軟件可用性測試量表SUMI(Software Usability Measurement Inventory):

常用的SUMI總共包括50個項目肮疗，其總體信度為0.92晶姊。SUMI共5個部分，每部分10個項目伪货，分別測量：

效率(Efficiency们衙，信度0.81)：產(chǎn)品在多大程度上幫助用戶完成任務(wù)；

情感反應(yīng)(Affect碱呼，信度0.85)：在任務(wù)過程中蒙挑，用戶所經(jīng)歷的情感反應(yīng)；

幫助系統(tǒng)(Helpfulness愚臀，信度0.83)：產(chǎn)品在多大程度上是‘不解自明’的以及幫助信息的適用性忆蚀；

可控性(Control，信度0.71)：在多大程度上，用戶認(rèn)為產(chǎn)品是受到掌控的馋袜；

可學(xué)習(xí)性(Learnability男旗，信度0.82)：用戶掌握產(chǎn)品/功能操作的速度。

SUMI最初采用5點評分欣鳖，但在后期更改為‘同意’‘不確定’‘不同意’的3點評分察皇。具體的計分方式不清楚，但其官方服務(wù)包括詳細(xì)的數(shù)據(jù)分析報告以及數(shù)據(jù)庫的對比泽台。與QUIS一樣什荣，SUMI支持對可用性的不同部分（效率,情感反應(yīng)等）的得分進(jìn)行對比分析。

（官網(wǎng)：http://sumi.uxp.ie/index.html）

2.4 測試后系統(tǒng)可用性量表(PSSUQ, Post-Study System Usability

Questionnaire)：

Lewis于1991年發(fā)表了PSSUQ怀酷，最初的量表包括18個稻爬，后面增加到19個項目⊥梢溃總共包括3個部分因篇，分別測量產(chǎn)品的系統(tǒng)質(zhì)量（System Usefulness，項目1-8）笔横，信息質(zhì)量（Information Quality竞滓，項目9-15），和界面質(zhì)量（Interface Quality項目16-19）吹缔。

PSSUQ的總體信度為0.94商佑，三個分表的信度分別為0.9，0.91厢塘，0.83( Lewis, 1995)茶没。

PSSUQ的計分方式為從1（強烈同意）到7（強烈不同意）的7點計分，可以計算所有項目得分的平均分得到產(chǎn)品的總體可用性得分晚碾，也可以計算各個部分的平均得分來判斷產(chǎn)品在某個特定方面得分抓半。PSSUQ的分?jǐn)?shù)越低代表該產(chǎn)品的可用性越好。

Lewis (2002)分析了5年中共21個IBM可用性測試的數(shù)據(jù)格嘁。指出：1.PSSUQ的回答不完整不會影響其最終結(jié)果笛求；2.絕對的PSSUQ總分的價值有限，關(guān)注不同分表的得分模式更有意義糕簿。同時探入，Lewis還指出測試者將PSSUQ的得分與其論文中的數(shù)據(jù)進(jìn)行對比是沒有意義的，因此也不存在PSSUQ的付費服務(wù)懂诗。

2.5 計算機系統(tǒng)可用性量表(CSUQ, Computer System Usability Questionnaire)：

在發(fā)表PSSUQ之后蜂嗽，為了適應(yīng)非實驗室測試的測驗環(huán)境，Lewis更改了其措辭編制了CSUQ殃恒。因此植旧，CSUQ在項目數(shù)辱揭，計分方式等方面與PSSUQ是一模一樣的。

CSUQ的總體信度為0.95病附，系統(tǒng)質(zhì)量的信度為0.93界阁，信息質(zhì)量的信度為0.89，界面質(zhì)量的信度則是0.89(Lewis, 1995)胖喳。

如果要在PSSUQ和CSUQ間作選擇，則在實驗室測試是選擇PSSUQ贮竟，而在非實驗室的測試環(huán)境時選擇CSUQ丽焊。

2.6 有用性、滿意度咕别、易用性量表(USE, Usefulness, Satisfaction, and Ease ofUse):

Arnie Lund（2001年）發(fā)表了USE量表技健。測試4個部分，總共包括30個項目惰拱。其中的有效性（Usefulness）包括8個項目雌贱，易用性（Ease of Use）包括11個項目，易學(xué)性（Ease of Learning）包括4個項目偿短，滿意度（Satisfaction）包括7個項目欣孤。

量表的全部項目都是從1（不同意）到7（同意）的7點評分。其具體的統(tǒng)計方式和統(tǒng)計學(xué)參數(shù)尚未公開發(fā)表昔逗。但使用者可通過建立基線/競品對比等方式來評測產(chǎn)品的可用性表現(xiàn)降传。

（量表鏈接：http://garyperlman.com/quest/quest.cgi?form=USE）

2.7 用戶經(jīng)驗的可用性測量(UMUX, Usability Metric for UserExperience):

Finstad (2010)發(fā)表了UMUX量表」磁總共包括4個項目婆排，其中3個分別測量ISO9241-11中對可用性的定義：有效性（Effectiveness），滿意度（Satisfaction）和效率（Efficiency）笔链，以及1個測量綜合體驗的問題段只。

UMUX的計分方式為從1（強烈不同意）到7（強烈同意）的7點計分。其總分計算方式為（項目總分*2.5）鉴扫。Kraig Finstad的研究指出UMUX分?jǐn)?shù)與SUS分?jǐn)?shù)間的相關(guān)性為0.80赞枕。

但作為新近編制的量表，UMUX的信效度受到了質(zhì)疑坪创。Bosley (2013)指出：1.對于測試可用性的量表而言鹦赎，UMUX的結(jié)果標(biāo)準(zhǔn)差較大，表明其測試結(jié)果有較大的不穩(wěn)定性误堡；2.僅僅比較了可用性高和低的兩個系統(tǒng)的分?jǐn)?shù)與SUS分?jǐn)?shù)的差異和相關(guān)性古话，對大多數(shù)可用性處于中等水平的系統(tǒng)沒有進(jìn)行對比。

2.8 凈推薦值(NPS, Net Promoter Score):

顧名思義锁施，NPS測量的是用戶對產(chǎn)品的推薦欲望陪踩。NPS是對產(chǎn)品用戶體驗和用戶滿意度的一個整體的測量杖们，它只包括一個項目（How likely are you to recommend (product or service) to a friend/colleague?）。

NPS并非一個單獨的量表肩狂，它的問題項目來源于SUPR-Q（見下文）摘完，用戶需要在0-10的可能性上進(jìn)行評分。其中打分9-10的用戶被稱為推薦者(Promoter)傻谁；打分在7-8之間的用戶被稱為被動者(Passive)孝治；而打分在6分以下的被稱為貶損者(Detractor)。

NPS分?jǐn)?shù)=（Promotor的百分比-Detractor的百分比）*100审磁。

根據(jù)Sauro & Lewis（2012）書中提供的數(shù)據(jù)谈飒，NPS的分?jǐn)?shù)與SUS分?jǐn)?shù)呈現(xiàn)0.80的強相關(guān)，SUS分?jǐn)?shù)超過80分即可被納入為推薦者态蒂。

受限于問題的數(shù)量杭措，NPS分?jǐn)?shù)的信效度始終存在爭議。樣本的選取钾恢，措辭的改變等等都有可能影響到NPS的最終結(jié)果手素。

小結(jié)：

在上文描述中，本文整理了可用性測試中幾種常用的標(biāo)準(zhǔn)化量表瘩蚪，包括其項目數(shù)泉懦、信度指數(shù)、分量表等信息疹瘦。

在此總結(jié)：對于大多數(shù)情況祠斧，可選用SUS量表；如果需要具體測量產(chǎn)品某一方面的體驗拱礁，應(yīng)該選擇QUIS琢锋、SUMI或PSSUQ；而對于非實驗室測試呢灶，應(yīng)當(dāng)選擇CSUQ吴超；而對于時間有限或預(yù)算不足的項目可以選擇NPS。

3. 網(wǎng)站評估量表：

網(wǎng)站評估量表產(chǎn)生的原因在于之前所提到的大部分整體評估問卷發(fā)表在網(wǎng)站流行的前期鸯乃，因此會存在不適用的部分鲸阻。比如：SUS，QUIS等問卷均不包括對產(chǎn)品的信任這一維度缨睡。而在使用網(wǎng)站的過程中鸟悴，對網(wǎng)站提供內(nèi)容和信息的信任無疑會影響到用戶體驗。

圖3-1.網(wǎng)站可用性評估量表概覽

3.1 網(wǎng)站分析和測量量表(WAMMI, Website Analysis and Measurement Inventory):

WAMMI包括20個項目奖年，測量的因子與SUMI相同细诸。WAMMI的總體信度在0.9-0.93之間，幾個因子的測試信度為吸引力：0.64陋守；可控性 0.69震贵；效率：0.63利赋；幫助性：0.7；易學(xué)性：0.74猩系。相對于其它量表媚送，這些分量表的信度有點兒偏低，因此WAMMI對于樣本量有比較嚴(yán)格的規(guī)定：可用性測試不少于30人寇甸，學(xué)術(shù)應(yīng)用不少于100人塘偎。

全部項目采用從1（強烈同意）到5（強烈不同意）的5點評分。在進(jìn)行分?jǐn)?shù)解釋時拿霉，WAMMI推薦生成各個分量表的分?jǐn)?shù)以及一個總分吟秩。其分?jǐn)?shù)的標(biāo)準(zhǔn)化方式暫無公開發(fā)表，但標(biāo)準(zhǔn)化WAMMI分?jǐn)?shù)的平均值為50友浸，標(biāo)準(zhǔn)差為10。

WAMMI的付費服務(wù)包括在你的網(wǎng)站中增加量表的鏈接偏窝，可以申請將量表翻譯成自己需要的語言收恢。對于測試結(jié)果提供詳細(xì)的描述報告及與其數(shù)據(jù)庫的對比報告，但一般情況下不會返回原始數(shù)據(jù)（可以申請返回用戶隱私數(shù)據(jù)之外的原始數(shù)據(jù)）祭往。

WAMMI還提供一套附加的問題庫伦意，并允許自主增加項目，但不推薦對其原有的項目進(jìn)行變更硼补。

（官網(wǎng)：http://www.wammi.com）

3.2 標(biāo)準(zhǔn)通用的百分等級量表(SUPR-Q, Standardized Universal Percentile Rank Questionnaire):

根據(jù)官網(wǎng)的信息驮肉，SUPR-Q總共包括10個項目（Sauro & Lewis的書中是13個項目的舊版，在正式使用中可減少到8個題目）已骇，分別測量網(wǎng)站的可用性(Usability)离钝，可信度/信任(Trust & Credibility)，外觀(Appearance)和忠誠度(Loyalty)褪储。

SUPR-Q的總體信度為0.86卵渴，各個分量表的信度分別是：0.88，0.85鲤竹，0.78浪读，0.64。SUPR-Q得分與SUS分?jǐn)?shù)之間存在r>0.88的強相關(guān)辛藻，與WAMMI分?jǐn)?shù)也存在r>0.88的強相關(guān)碘橘。

SUPR-Q的項目基本采用從1（強烈不同意）到5（強烈同意）的5點評分。但在忠誠度的分量表中‘項目：How likely are you to recommend (product or service) to a friend/colleague?’是采用從0（完全不可能）到10（極其樂意）的11點評分吱肌。這個項目也被人單獨使用構(gòu)成了NPS量表痘拆。

SUPR-Q的總分計算方式是所有項目得分的總和（NPS得分只計一半）。在進(jìn)行數(shù)據(jù)庫對比的時候氮墨，SUPR-Q的分?jǐn)?shù)可以轉(zhuǎn)化為百分等級分?jǐn)?shù)進(jìn)行判斷错负。即坟瓢，如果某網(wǎng)站的百分等級為80，則意味著該網(wǎng)站的SUPR-Q得分高于比數(shù)據(jù)庫中80%的網(wǎng)站（官方表示有數(shù)據(jù)庫中有150+個網(wǎng)站的數(shù)據(jù)）犹撒。

（官網(wǎng)：http://www.measuringu.com/products/suprq）

小結(jié)：

除了WAMMI和SUPR-Q之外折联，還有許多測量網(wǎng)站可用性的量表(Sauro & Lewis, 2012)。只是從應(yīng)用層面而言识颊，現(xiàn)在都在提倡‘移動優(yōu)先’诚镰，而且大部分測試完全可以通過SUS或QUIS等量表完成，再輔以NPS或是測量信任度的題目祥款。所以對于剩下的就不做梳理了清笨。

4. 任務(wù)評估問卷：

可用性測試通常會包括有多個任務(wù)，而有的任務(wù)也會包含有多個分任務(wù)刃跛。研究發(fā)現(xiàn)整體評估和分任務(wù)評估間存在顯著相關(guān)（r=0.64）抠艾，但是如果想完全通過整體性評估的結(jié)果來解釋測試結(jié)果仍是存在偏差的。

圖4-1.任務(wù)評估問卷概覽

4.1 場景后問卷(ASQ, After-Scenario Questionnaire)：

ASQ由PSSUQ和CSUQ的作者Lewis（1993）發(fā)表桨昙〖旌牛總共包括三個項目，分別測量用戶在三個方面的滿意度：任務(wù)難度蛙酪、完成效率和幫助信息齐苛。

ASQ的項目采用從1（強烈同意）到7（強烈不同意）的7點計分。ASQ分?jǐn)?shù)即是3個項目得分的平均分桂塞。

Lewis (1995)的研究指出ASQ分?jǐn)?shù)與PSSUQ分?jǐn)?shù)的之間存在r=0.8的強相關(guān)凹蜂，與場景任務(wù)的成功率也存在r=-0.4的顯著相關(guān)。

圖4-2. ASQ

4.2 單項難易度問卷(SEQ, Single Ease Question)：

SEQ是僅包括一個項目的語義差異測量阁危，這個項目與ASQ的項目一類似玛痊，均是用戶對任務(wù)難易度的評估。

SEQ的評分方式包括5點計分和7點計分狂打，但根據(jù)目前的研究結(jié)果卿啡，7點評分擁有更高的信效度。

Sauro and Dumas (2009)發(fā)現(xiàn)SEQ分?jǐn)?shù)與SUS得分呈現(xiàn)r=-0.56的的中等相關(guān)菱父，與任務(wù)完成時間（r=-0.9）和任務(wù)出錯率（r=-0.84）均存在顯著相關(guān)性颈娜。同時，通過比較了SEQ浙宜、SMEQ和UME三個任務(wù)后評估問卷官辽，他們也發(fā)現(xiàn)SEQ分?jǐn)?shù)與SMEQ分?jǐn)?shù)存在r=0.94的強相關(guān)，與UME分?jǐn)?shù)存在r=0.95的強相關(guān)粟瞬。

圖4-3. Sauro & Dumas（2009）年發(fā)表的SEQ

4.3 主觀心智負(fù)荷問卷(SMEQ, Subjective Mental Effort Question):

SMEQ由Zijlstra & van Doorn（1985）年發(fā)表同仆，僅包含有一個項目，是一個從0到150裙品，包括9個文字標(biāo)簽的定距測量(Jeff Sauro & Dumas, 2009)俗批。

與ASQ或SEQ不同俗或，SMEQ的測量得分為定距分?jǐn)?shù)。這意味著得分45與50之間的差距與得分120與125之間的差距是一樣的岁忘，更加便于比較辛慰。

Sauro and Dumas (2009)發(fā)現(xiàn)SMEQ分?jǐn)?shù)與SUS得分呈現(xiàn)r=-0.60的的中等相關(guān)，與任務(wù)完成時間（r=-0.82）干像，任務(wù)完成率（r=0.88）和出錯率（r=-0.72）均存在顯著相關(guān)性帅腌。同時，SMEQ與UME分?jǐn)?shù)存在r=0.84的強相關(guān)麻汰。

圖4-4. SMEQ

4.4 可用性等級評估(Usability Magnitude Estimation):

UME由McGee（2003）發(fā)表速客，是僅包括一個項目的定比測量。

與其它任務(wù)后測量問卷不同五鲫，UME并不限定被測者的作答區(qū)間溺职，可以是從絕對零值到正無限的任意值。這意味著50分的任務(wù)就是比25分的任務(wù)困難2倍位喂，為解釋結(jié)果提供了便利浪耘。

Jeff Sauro and Dumas (2009)的研究推薦了一種更方便解釋和施測的方法，即為UME的評分定義基線忆某。在研究中点待，他們將一個圖標(biāo)搜索任務(wù)的難度定義為10阔蛉，被測者對任何測試任務(wù)的難度評估均以10標(biāo)準(zhǔn)點得出弃舒。

其研究中指出：UME分?jǐn)?shù)與SUS分?jǐn)?shù)呈現(xiàn)r=-0.316的輕度相關(guān)，與任務(wù)完成時間之間存在r=-0.91的顯著相關(guān)状原。同時UME與SEQ存在r=0.95聋呢，與SMEQ存在r=0.84的強相關(guān)。

備注：對于UME的使用颠区，目前仍存在著諸多爭議削锰。與其它問卷相比，UME更加依賴于主試人員毕莱；不同被試對基線的理解存在差異器贩；訓(xùn)練被試?yán)斫狻畠杀峨y度’，‘一半難度’等概念也會增加測試成本和誤差朋截。

4.5 NASA任務(wù)符合問卷(NASA-TLX, NASA Task Load Index):

TLX由美國NASA研究中心發(fā)表蛹稍，總共包括6個項目，分別測量用戶主觀的：心智負(fù)荷（Mental Demands）部服，生理負(fù)荷（Physical Demands）唆姐，時間損耗（Temporal Demands），任務(wù)表現(xiàn)（Own Performance）廓八，努力程度（Effort）和沮喪感（Frustration）奉芦。

標(biāo)準(zhǔn)的TLX施測程序包括兩部分：首先赵抢，用戶需要在每兩個項目之間進(jìn)行選擇以判斷任務(wù)負(fù)荷的來源（共15對），以確定各個項目在任務(wù)負(fù)荷中構(gòu)成的權(quán)重声功；然后烦却，則是在6個項目上進(jìn)行的10點語義差異評分（用戶在類似圖4-5上的刻度上打分，處于兩格之間的分?jǐn)?shù)取靠右的值）减噪。將項目的權(quán)重和項目評分相乘即為該用戶的TLX分?jǐn)?shù)短绸。

當(dāng)然，在正式使用時筹裕，也有研究省略掉權(quán)重評估的部分直接計算項目得分醋闭。

（官網(wǎng)：https://humansystems.arc.nasa.gov/groups/TLX/）

圖4-5. NASA-TLX項目測量

4.6 期望評級(Expectation Rating):

Albert & Dixon（2003）年發(fā)表了ER問卷，他們認(rèn)為任務(wù)的難度是與用戶進(jìn)行任務(wù)前的預(yù)期難度相關(guān)的。因此摊册，ER包括兩個項目：一個在進(jìn)行任務(wù)前施測畴栖，測量用戶對任務(wù)難度的預(yù)期判斷；另一個在任務(wù)后施測囚企，測量用戶對任務(wù)難度的體驗判斷(Sauro & Lewis, 2012)。

ER的項目采用從1（非常容易）到7（非常困難）的7點評分瑞眼。與其它問卷比較最終得分的解釋方法不同龙宏，ER的分?jǐn)?shù)解釋通過預(yù)期分?jǐn)?shù)和體驗分?jǐn)?shù)兩個維度構(gòu)成的象限圖來完成。如下：

圖4-5. ER的分?jǐn)?shù)象限

小結(jié)

在上述的幾種任務(wù)評估問卷中伤疙，UME和TLX在分?jǐn)?shù)解釋上存在較高的成本银酗，SEQ、SEMQ更適合在任務(wù)密集的測試中使用徒像，ASQ和ER可能更適合時間較為充分的測試黍特。此外，為了達(dá)到最優(yōu)效果锯蛀，參與測試的人數(shù)應(yīng)不低于20灭衷。

結(jié)語：

可用性測試中適用的量表還有很多，Jeff Sauro and Lewis (2012)的書中詳細(xì)介紹了這些量表的發(fā)展和使用旁涤。除此之外翔曲，書中還包括其它用戶研究中統(tǒng)計及數(shù)據(jù)相關(guān)的信息（有中文版《量化用戶體驗的統(tǒng)計學(xué)方法》）∨蓿總結(jié)完以后再慢慢把量表翻譯一遍瞳遍。

作者信息：Ivan，2017屆基礎(chǔ)心理學(xué)碩士造虎，福州傅蹂。 ?

參考文獻(xiàn)

Bangor,A., Kortum, P., & Miller, J. (2009). Determining what Individual SUS ScoresMean: Adding an Adjective Rating Scale.Journal of Usability Studies(No.3).

Bosley, J. J. (2013). Creating a Short Usability Metric for User Experience (UMUX) Scale. Interacting with Computers(No.4), 317-319.

Finstad, K. (2010). The Usability Metric forUser Experience.Interacting with Computers, 22(5), 323-327. doi: 10.1016/j.intcom.2010.04.004

Lewis, J. R. (1995). IBM Computer UsabilitySatisfaction Questionnaires: Psychometric Evaluation and Instructions for Use.International Journal of Human-Computer Interaction(No.1), 57.

Lewis, J. R. (2002). Psychometric Evaluationof the PSSUQ Using Data from Five Years of Usability Studies.International Journal of Human-Computer Interaction, 14(3-4), 463-488. doi:10.1080/10447318.2002.9669130

Lewis, J. R., & Sauro, J. (2009).The Factor Structure of the System Usability Scale. Paper presented at the Human Centered Design, First International Conference.

Sauro, J., & Dumas, J. S. (2009).Comparison of three one-question, post-task usability questionnaires.Paper presented at the Proceedings of the 27thinternational conference on Human factors in computing systems.

Sauro, J., & Lewis, J. (2009).Correlations among Prototypical Usability Metrics: Evidence for the Construct of Usability.Paper presented at the27th Annual CHI Conference on Human Factors in Computing Systems.

Sauro, J., & Lewis, J. R. (2012).Quantifying the User Experience : Practical Statistics for User Research.

最后編輯于：2017.12.04 05:41:18

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子份蝴，更是在濱河造成了極大的恐慌犁功，老刑警劉巖，帶你破解...
沈念sama閱讀 216,402評論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件婚夫，死亡現(xiàn)場離奇詭異浸卦，居然都是意外死亡，警方通過查閱死者的電腦和手機案糙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門限嫌，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人时捌，你說我怎么就攤上這事怒医。” “怎么了奢讨？”我有些...
開封第一講書人閱讀 162,483評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵稚叹，是天一觀的道長。經(jīng)常有香客問我拿诸，道長扒袖，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,165評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任亩码，我火速辦了婚禮季率，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘描沟。我一直安慰自己飒泻，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,176評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布啊掏。她就那樣靜靜地躺著蠢络，像睡著了一般衰猛。火紅的嫁衣襯著肌膚如雪迟蜜。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,146評論 1贊 297
城市分裂傳說
那天啡省，我揣著相機與錄音娜睛，去河邊找鬼。笑死卦睹，一個胖子當(dāng)著我的面吹牛畦戒，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播结序，決...
沈念sama閱讀 40,032評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼障斋，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起垃环，我...
開封第一講書人閱讀 38,896評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤邀层，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后遂庄，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寥院，經(jīng)...
沈念sama閱讀 45,311評論 1贊 310
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,536評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年涛目，在試婚紗的時候發(fā)現(xiàn)自己被綠了秸谢。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,696評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡霹肝，死狀恐怖估蹄，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情沫换，我是刑警寧澤元媚，帶...
沈念sama閱讀 35,413評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站苗沧，受9級特大地震影響刊棕，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜待逞，卻給世界環(huán)境...
茶點故事閱讀 41,008評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一甥角、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧识樱，春花似錦嗤无、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案当犯，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至割疾，卻和暖如春嚎卫，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背宏榕。一陣腳步聲響...
開封第一講書人閱讀 32,815評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工拓诸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人麻昼。一個月前我還...
沈念sama閱讀 47,698評論 2贊 368
代替公主和親
正文我出身青樓奠支，卻偏偏與公主長得像，于是被迫代替她去往敵國和親抚芦。傳聞我的和親對象是個殘疾皇子倍谜，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,592評論 2贊 353

標(biāo)準(zhǔn)化量表在可用性測試中的應(yīng)用

推薦閱讀更多精彩內(nèi)容