VO 4,5: Usability Testing

Einleitung

Usability Testing

Testpersonen (repräsentativ für Enduser) in kontrollierter Umgebung beobachtet

müssen vordefinierte Aufgaben lösen (realistisch, praxisnahe)

Alles was getan und gesagt wird aufgezeichnet, analysiert um Userprobleme und Lösungen zu finden

Formative Evaluierung

Während Design und Entwicklung

eher quallitative Datenerhebung

Vorausschauend

  • Werden Bedürfnisse erfüllt?
  • Wird es Probleme geben?
  • Welche alternative ist besser?

Informell(für formative Evaluierung möglich)

wenige Testpersonen zB am Arbeitsplatz von Entwicklern und sie beobachten mit

kleines Team (oder einzelne Testleiter)

wenig bis keine Protokollierung

Summative Evaluierung

Nach Design und Entwicklung

eher quantitative Datenerhebung

Benchmarking

Überprüfung von Hypothesen, Standards

Formell(für summative Evaluierung nötig)

viele Testpersonen im Labor

großes Team

viel Protokollierung

Arten von Usability Tests

1) Exploratory Testing

Formativ → persönlich, viel Interaktion zwischen Testleiter und Testperson

Früh im Designprozess → wenig Funktionlaität implementiert

Fundamentale high-level Designfragen

2) Assessment Testing

Formativ und summativ → geringe Interaktion

Mittlere Phase im Designprozess → Konzepte klar definiert

Die ersten qualitativen Datenerfassung (User performance)

3) Validation Testing

Summativ → keine Interaktion

Fertiges Produkt

Test gegen Standards (intern oder Konkurrenzprodukte)

Benchmarking von Performance-Kriterien

Comparison Testing

In jeder Phase des Design-Prozeses

Basierend auf Haupttesttyp

Vergleich von Designkonzepten oder mit Konkurrenzprodukten

Grober Ablauf

Grober Ablauf eines Usability Tests

  1. Vorbereitung und Planung
  1. Durchführung

    Test-Sessions mit Testpersonen

  1. Auswertung

    Analyse von gesammelten Daten + Entwicklung von Verbesserungsvorschlägen

  1. Kommunikation der Ergebnisse / Reporting

    Kunde/Entwickler bekommen Ergebnisse

Testbericht

[Problemstellung, Methode, Anhänge]\rarrvor dem Test erstellt

Aufbau Testbericht

Management Summary

Problemstellung

Produktbeschreibung, Testziele

Methode

Testpersonen, Testszenarien, Testmaterial und Einrichtung, Design, Ablauf

Anweisungen an Testpersonen

Ergebnisse

gruppiert nach Testszenario

Analyse, Verbesserungsvorschläge

Conclusio

Anhänge

Interviewleitfaden, Fragebögen, Testmaterial, ...

1) Vorbereitung, Planung

Vorbereitung und Planung: Festlegung von

Umfang des Tests

Ziel des Tests

Metriken, gesammelte Daten

Zeitplan

Taskliste, Szenarien

Benutzerprofile definieren, Testpersonen rekrutieren

Testraum, Equipment

Testablauf

Anweisungen für Testteam

Umfang des Tests

Was genau soll getestet werden und was nicht?

Produkt und Produktteile, Plattform/Betriebsumgebung

Welche Benutzergruppen nutzen diesen Produktteil?

Welche Aufgaben kann man mit diesem Produktteil erledigen?

Ziel des Tests

Am Anfang abstrakte Fragestellungen

  • Beispiele

    Ist System gut benutzbar?

    Ist System effizient zu verwenden?

Diese Fragestellungen konkretisieren

  • Beispiele

    Können BenutzerInnen das System selbständig und ohne Hilfestellung in Betrieb nehmen?

    Wissen BenutzerInnen, was sie mit dem System machen können?

    Können BenutzerInnen mit dem System [Aufgabe X] selbständig erfüllen?

    Ist die Antwortzeit des Systems ausreichend schnell?

    Sind die Icons verständlich?

    Sind die vorhandenen Konfigurationsmöglichkeiten verständlich?

    Sind die vorhandenen Konfigurationsmöglichkeiten ausreichend?

    Lässt sich das System ausschließlich mit einem Touchscreen bedienen?

    Verwenden die BenutzerInnen Tastatur-Shortcuts?

    ...

Metriken und gesammelte Daten

Qualitative Daten

Beobachtungen des Teams: Aussagen

Quantitative Daten

Erfolgsrate: Anzahl der erfolgreich abgeschlossenen Tasks

Fehlerrate (kritisch vs. nicht-kritisch): Anzahl der nicht erfolgreich abgeschlossenen Tasks

Hilfestellungen: Anzahl der benötigten Hilfestellungen

Zeit: Zeit benötigt für Tasks

Zufriedenheit: Subjektive Eindrücke via Fragebogen

Zeitplan

Zeitpunkte definieren:

Produkt bereit zum Testen

Test

Testsessions (Dauer pro Test und Anzahl der Tests pro Tag)

Analyse der Ergebnisse

Präsentation

Ergebnisse benötigt (Deadline)

Taskliste

👉
Daumenregel: ~10 Tasks in maximal 60min

Tasks

Realistische Szenarien

Vordefinierte Aufgaben für Testpersonen basierend auf Anforderungen der Enduser (keine technischen Anforderungen)

Lenkung auf kritische Aspekte der App

Herausforderung

a) offen → eher qualitative Daten

autonome Lösungsfindung, kein konkreter Fokus

b) spezifisch → eher quantitative Daten

stärkere Lenkung der Testpersonen

Zerlegung von Szenarien in Teilkomponenten

Einschränkung des Spielraumes für bessere Überprüfbarkeit (keine step-by-step Anweisungen)

Teilkomponenten alleine müssen ein realistisches Anwendungsszenario sein

  • Beispiel

    Die Teilkomponenten stehen in eckigen Klammern.

    1. Registrierung eines / einer neuen BenutzerIn [1]
    1. Login eines / einer bestehenden BenutzerIn [1]
    1. Produkt bestellen [2, 4, 6]
    1. Mehrere Produkte miteinander vergleichen [2, 3]
    1. Versandkosten ermitteln [5]
    1. ...


Beispiel-Task

Task KomponenteBeschreibung
TaskProdukt bestellen
Vorberdingung Das Produkt (Batterien) ist im System vorhanden. Die Startseite des Online-Shops ist im Browser geöffnet. Der Benutzer ist eingeloggt und sämtliche relevanten Daten (Name, Adresse, Zahlungsinformation) sind bei dem verwendeten Account hinterlegt.
EndzustandDie Bestellung wurde erfolgreich abgeschickt.
Benchmark10 Minuten
Script Sie bemerken, dass die Batterien in Ihrer Fernbedienung langsam schwächer werden. Bestellen Sie 4 Stück neue AA-Batterien zu sich nach Hause.

Script ist die Anweisung an die Testperson und ein reales Szenario.

Sagt was das Endziel ist und nicht wie man es richtig macht.

Testperson bekommt nur Script zu sehen (alles andere für das Testteam).

Benutzerprofile definieren und Testpersonen rekrutieren

Testperson muss repräsentativ für Zielgruppe / Enduser sein (sonst Tests nicht aussagekräftig)

Screening Fragebögen für Auswahl der Testpersonen

Kategorisieren

zB Anfänger, Experte oder nach Personas Konzept von Cooper, 1999

Anzahl

Idealerweise 3-5 Testpersonen mit so vielen Tests wie nur leistbar.

Für Benchmarking und wissenschaftlichen Experimenten 20+

  • Formel

    N(1(1L)n)\small N(1-(1-L)^n)

    N\small N gesamte Anzahl der usability Probleme

    L\small L Anteil (zwischen 0-1) an usability Probleme mit nur einer Person ( avg = 31%\footnotesize \text{avg = 31\%} )

RITE: Rapid Iterative Testing and Evaluation

Testen bis man Problem gefunden hat - sofort aufhören und korrigieren, erst dann fortsetzen

Benutzerprofile erstellen

CharakteristikKriteriumTeilnehmer
Android ErfahrungÜber ein Jahr45% → 1 - 3 Jahre 35% → 3 - 5 Jahre 20% → 5+ Jahre
Alterälter als 18Mittelwert: 26,7, Median: 24, Min: 18, Max: 47
Geschlechtca. gleichverteilt45% Männlich, 55% Weiblich
Erfahrung mit ProduktNicht vorhanden70% → kannten das Produkt nicht 30% → davon gehört aber nie benutzt

Testumgebung und Equipment

Hardware, Software, Testumgebung

Equitpment zur Testdurchführung und Datenerfassung

  • Beispiel

    “Die Testumgebung besteht aus einem abgetrennten Büro mit Schreibtisch und zwei Beobachter-Stühlen. Der Computer ist ein Laptop mit 13,3” Screen (1280x800 Auflösung), QWERTZ-Keyboard, Touchpad und einer Zwei-Button-Mouse mit Scrollrad.

    Als Betriebssystem kommt Mac OS X 10.15 zum Einsatz. TeilnehmerInnen haben die Wahl zwischen der aktuellsten Version von Firefox, Chrome oder Safari je nach persönlicher Präferenz und Erfahrung. Der Browser ist zu Testbeginn mit der Startseite www.google.com geöffnet.

    Audio und Video werden während des Tests mit der im Laptop integrierten Videokamera bzw. Mikrofon aufgezeichnet. Bildschirminhalte werden mit Quicktime aufgezeichnet.

    Zeitmessungen werden manuell von einem Beobachter durchgeführt.”

Testablauf in Testsessions

👉
Siehe weiter unten - “Durchführung der Test Sessions”

Anweisungen für Testteam

  • Anweisungen an Team

    „Der/die TestleiterIn sitzt mit dem/der TeilnehmerIn in einem Raum während der Durchführung des Tests. Der/die TestleiterIn startet die einzelnen Tasks nach erfolgreicher Vorbereitung und dokumentiert Fehler, Beobachtungen und Zeitmessungen. Der/ die TestleiterIn leistet keine Hilfestellungen außer der/die TeilnehmerIn weicht gravierend vom Lösungsweg ab und beantwortet nur Fragen, die die Testergebnisse nicht beeinflussen. Der/die TestleiterIn steht im Fall von EquipmentFehlern und technischen Problemen zur Verfügung. TeilnehmerInnen erhalten die Aufgabenbeschreibung in schriftlicher Form und sind angehalten, die Aufgaben selbständig und möglichst rasch mit dem vorhandenen Test-Equipment durchzuführen.”

👉
Siehe weiter unten - “Guidelines für Teammitglieder”

Lerneffekte vermeiden

Balancing der Testreihenfolge mitLatin Square Balancing

Balancieren nicht immer notwendig

Aufbau:

Linkeste Spalte: Testperson

Oberste Zeile: Task Reihenfolge

Inhalt: Tasks selbst

1234
TP1ABCD
TP2BDAC
TP3DCBA
TP4CADB

Comparison Testing: Within-Subject vs. Between-Subject Design

zB Frage: Kann man mit Maus oder Touchscreen das Interface schneller bedienen?

  • Unabhängige Variable: Eingabegerät (Maus/Touchscreen)
  • Abhängige Variable: Zeit für die Erfüllung

Within subject design

Jede Testperson in jeder Bedingung

Vorteil: Weniger Testpersonen

Nachteil: Lerneffekte (muss durch Latin Square ausgeglichen werden)

Between subject design

Jede Testperson in nur einer Bedingung (Gruppen müssen vergleichbar sein)

2) Durchführung

Vor Durchführung des Usability Tests

Den Test selbst durchführen

für Zeitplan (Sessions) und Testdesign

Pilottest durchführen

Tasks, Testplan, Material

Produkt, Testzubehör, Testumgebung prüfen

Allgemeine Tipps für die Durchführung

Eine angenehme Atmosphäre schaffen, respektvoll und neutral sein

Testpersonen nicht sofort helfen

Gute Aufzeichnungen führen

Testmaterial

Testmaterial

Orientierungsscript

Vorstellung

Zweck des Tests

Hinweis, dass das Produkt und nicht die Testperson getestet wird

Hinweis, dass das Produkt noch fehlerhaft sein kann

Auf Video- und Audioaufnahmen hinweisen

Testperson aufklären, dass sie jederzeit aufhören oder Fragen stellen kann

Background Fragebogen

Demographische Daten

Computererfahrung

...

Pre-Test Fragebogen

Eindrücke vor dem eigentlichen Test

Erfahrung mit diesem oder einem ähnlichen Produkt

Task-Liste

Realistische Szenarien

Jede Aufgabe auf einem eigenen Blatt

Beschreibung des Ziels, nicht der einzelnen Schritte

Trainingsmaterial (optional)

Walk-through von Beispielaufgaben

Demonstration der Oberfläche (GUI)

Demonstration der Interaktionsmöglichkeiten

Non-Discolsure Agreement NDA

Einverständniserklärung zur Aufzeichnung

Logging Sheets

Post-Test Fragebogen

Wording

Navigation

Angezeigte Informationen ausreichend

Allgemeiner Eindruck

Standardisierte Fragebögen (SUS, CSUQ, ...)

Debriefing

Strukturiertes Interview: Themen, die nach dem Test noch geklärt werden sollen

Checkliste

Chronologische Liste des Testablaufs (immer gleich)

Durchführung der Test-Sessions

Durchführung der Testsessions (Version 1)

  1. Begrüßung und Background Fragen

    Jeder Teilnehmer persönlich von Testleiter begrüßt und muss Background-Fragebogen (Anhang A) ausfüllen.

  1. Orientierung

    Verbale Einführung mit Orientierungsskript (Anhang B): Zweck, Ziel von Test und Einführung in Test-Equipment. Einwilligung dass Aufzeichnungen gemacht werden.

  1. Durchführung der Test-Session

    Vordefinierte Tasks werden unter Beobachtung durchgeführt.

    Ablauf:

    • Testleiter liest Task vor und übergibt ihn auch auf einem Blatt.

      Danach versucht Testperson den Task auszuführen. (Testleiter dokumentiert Zeit, Fehler, Beobachtungen)

    • Nach erledigung wird ein Post-Test-Fragebogen ausgefüllt.

  1. Teilnehmer Debriefing

    Testleiter stellt Fragen zu:

    Gesamtzufriedenheit mit UI

    Kommentare und Empfehlungen zu UI

    Dingen und spezifischen Fehlern und Beobachtungen die während dem Test aufgetreten sind

Durchführung der Testsessions (Version 2)

  1. Begrüßung

    in angenehmer Umgebung, nicht Testlabor

  1. Ausfüllen von einleitenden Dokumenten

    NDA, Erlaubnis zur Aufzeichnung, Background Fragebogen

  1. Orientierungsskript vorlesen

    Dies dient der Erklärung des Testablaufs und der Betonung von Methoden (z.B. Thinking-Aloud), die verwendet werden.

    Hinweis an Person: Es wird das Produkt, nicht die Testperson getestet!

  1. Ausfüllen von Pre-Test Fragebögen

    Wenn sinnvoll mit Background Fragebogen kombinierbar

  1. Vorbereitung im Usability Labor

    Vorstellung der Beobachter, Erklärung der Testeinrichtung

  1. Vorbereitendes Training

    kann notwendig sein um Testperson mit Produkt vertraut zu machen

  1. Ausgeben der Task Szenarien

    Task einzeln, schriftlich, sequentiell ausgegeben.

    Nachlesen jederzeit für Testperson möglich.

  1. Startzeit aufnehmen, Testperson beobachten, kritische Daten aufnehmen

    Datensammlungs-Instrumente starten

  1. Ausfüllen der Post-Test Fragebögen

    Vor Diskussion Fragebogen ausfüllen damit Einfluss vermieden wird.

  1. Debriefing

    Fragen die während des Tests aufgetaucht sind beantworten

  1. Bedanken und verabschieden
  1. Daten und Logging Sheets sammeln

    Alle Daten, Formulare, Kommentare (auch von Beobachter) sammeln

Thinking-Aloud

Thinking-aloud

a) Concurrent lautes Nachdenken während Ausführung von Aufgaben

b) Retrospective lautes Nachdenken nach der Ausführung (zB mit Screenrecordings)


Relevante Aussagen sind über Gedankengänge - nicht über Meinungen, Designvorschlägen, etc.

  • Beispiele

    Relevant

    ▪ Ich will ... machen. ▪ Ich glaube ... passiert wenn ich hier draufdrücke. ▪ Das ist nicht was ich erwartet habe, ich dachte ... ▪ Das hat länger gedauert als erwartet.

    Irrelevant

    ▪ Ich finde der Button sollte rot sein. ▪ Ich glaube nicht, dass andere Benutzer das so machen würden.

Vorteil

Überlegungen lassen sich beobachten und dadurch Usability Probleme finden

Nachteile

Ungewohnt für Person

Intensiveres Denken und Entschleunigung der Arbeitsgeschwindigkeit (bei Concurrent)

Höherer Zeitaufwand (bei Retrospective)

Co-Discovery (Variante von Thinking-aloud)

Zwei Testpersonen führen Test gemeinsam und kommunizieren miteinander

Vorteil: Natürlicher Dialog mit geringerer Hemmschwelle als Thinking-aloud

Nachteil: Man braucht doppelt so viele Testpersonen und die Ergebnisse sind nicht so valide da der Enduser das Interface alleine nützt

Guidelines für Teammitglieder

Teammitglieder Rollen

Testleiter (Verantwortlicher)

Moderator (Kommuniziert mit Testpersonen)

Protokollant

Zeitnehmer

Video/Audio Operator

Produktspezialist / technischer Spezialist

Zusätzliche Testrollen

Testbeobachter

Interaktion mit Testperson

Jede Interaktion stört den Test und beeinflusst das Ergebnis → Nur so viel Interaktion wie absolut notwendig.

Es müssen Personen bestimmt werden als: Ansprechperson, um Testperson zu unterbrechen, über das Ende der Aufgabe zu entscheiden

Ansprechperson

Moderator ist der einzige Ansprechpartner für Testperson.

Kommunikation im Labor zB via Sprechanlage.

Testperson unterbrechen

Gründe für Unterbrechungen:

Erinnerung an “Thinking-Aloud”

Wenn zu schnell (keine Pausen zwischen Aufgaben) oder zu langsam

Technische Probleme

Entscheidung über das Ende der Aufgabe

Testperson entscheidet

Es gibt aber 2 weitere Fälle (die zB durch falsche Rückmeldungen auftreten können):

  1. false negative: Testperson ist fertig aber weiß es nicht
  1. false positive: Testperson sagt sie ist fertig, ist es aber nicht

    für vergleichbare Tests oder um mehr zu lernen weitermachen - ansonsten falls genug dokumentiert wurde unterbrachen

Einflussnahme vermeiden

Einflussquelle: Gestellte Fragen und die gegebenen Antworten

Fragen sollten neutral sein und keine Hinweise geben.

Anforderungen an Protokollanten

Protokollant muss System und Testaufgaben kennen und zwischen objektiven und subjektiven Daten unterscheiden können.

Datenerfassung

Vor Ort vs. Aufzeichnungen

Beobachtung vor Ort

Unmittelbar - dadurch geht nichts beim Aufzeichnen verloren (aber Dinge werden nicht festgehalten)

Man kann Unklarheiten mit Testperson direkt ausdiskutieren

Auswertung von Aufzeichnungen

Nützlich für Dokumentation, Reporting

Man spart aber effektiv keine Zeit wenn man die Evaluation verschiebt.

Logging Sheets, Notizen

Anfangszeit - Stopzeit

Aussagen von Testpersonen

Fehler und Probleme (Zeitpunkt, Häufigkeit)

Annahmen und Interpretationen zu Beobachtungen

Liste von Personen und Tasks (idealerweise ein eigenes Logging Sheet pro Protokolant, Teilnehmer, Task)

Standardisierte Fragebögen

Audioaufnahmen

Wichtig bei Thinking-Aloud.

Nimmt Arbeit von Protokollanten ab.

Screenrecording und Videoaufzeichnung

Spezialisierte Tools: Noldus Observer / Viso

Im OS integriert: Quicktime (Mac OS), Gamebar (Win10)

Opensource: OBS

Testumgebung (Usability Labor)

Mobile Usability Testing

mehr Einschränkungen als bei Desktop (zB kleinerer Bildschirm etc)

Aufzeichnung

Aufzeichnung in OS integriert: Screen recording, screen sharing

Apps: UXCam

Zusätzliche Hardware (beeinflusst Ergebnisse)

3) Auswertung

4) Kommunikation der Ergebnisse

Vertiefende Links

Erste Hälfte (Vorbereitung und Planung)

Zweite Hälfte (alles andere)