VO 4,5: Usability Testing
Einleitung
Usability Testing
Testpersonen (repräsentativ für Enduser) in kontrollierter Umgebung beobachtet
müssen vordefinierte Aufgaben lösen (realistisch, praxisnahe)
Alles was getan und gesagt wird aufgezeichnet, analysiert um Userprobleme und Lösungen zu finden
Formative Evaluierung
Während Design und Entwicklung
eher quallitative Datenerhebung
Vorausschauend
- Werden Bedürfnisse erfüllt?
- Wird es Probleme geben?
- Welche alternative ist besser?
Informell(für formative Evaluierung möglich)
wenige Testpersonen zB am Arbeitsplatz von Entwicklern und sie beobachten mit
kleines Team (oder einzelne Testleiter)
wenig bis keine Protokollierung
Summative Evaluierung
Nach Design und Entwicklung
eher quantitative Datenerhebung
Benchmarking
Überprüfung von Hypothesen, Standards
Formell(für summative Evaluierung nötig)
viele Testpersonen im Labor
großes Team
viel Protokollierung
Arten von Usability Tests
1) Exploratory Testing
Formativ → persönlich, viel Interaktion zwischen Testleiter und Testperson
Früh im Designprozess → wenig Funktionlaität implementiert
Fundamentale high-level Designfragen
2) Assessment Testing
Formativ und summativ → geringe Interaktion
Mittlere Phase im Designprozess → Konzepte klar definiert
Die ersten qualitativen Datenerfassung (User performance)
3) Validation Testing
Summativ → keine Interaktion
Fertiges Produkt
Test gegen Standards (intern oder Konkurrenzprodukte)
Benchmarking von Performance-Kriterien
Comparison Testing
In jeder Phase des Design-Prozeses
Basierend auf Haupttesttyp
Vergleich von Designkonzepten oder mit Konkurrenzprodukten
Grober Ablauf
Grober Ablauf eines Usability Tests
- Vorbereitung und Planung
-
Durchführung
Test-Sessions mit Testpersonen
-
Auswertung
Analyse von gesammelten Daten + Entwicklung von Verbesserungsvorschlägen
-
Kommunikation der Ergebnisse / Reporting
Kunde/Entwickler bekommen Ergebnisse
Testbericht
[Problemstellung, Methode, Anhänge]vor dem Test erstellt
Aufbau Testbericht
Management Summary
Problemstellung
Produktbeschreibung, Testziele
Methode
Testpersonen, Testszenarien, Testmaterial und Einrichtung, Design, Ablauf
Anweisungen an Testpersonen
Ergebnisse
gruppiert nach Testszenario
Analyse, Verbesserungsvorschläge
Conclusio
Anhänge
Interviewleitfaden, Fragebögen, Testmaterial, ...
1) Vorbereitung, Planung
Vorbereitung und Planung: Festlegung von
Umfang des TestsZiel des Tests
Metriken, gesammelte Daten
Zeitplan
Taskliste, Szenarien
Benutzerprofile definieren, Testpersonen rekrutieren
Testraum, Equipment
Testablauf
Anweisungen für Testteam
Umfang des Tests
Was genau soll getestet werden und was nicht?
Produkt und Produktteile, Plattform/Betriebsumgebung
Welche Benutzergruppen nutzen diesen Produktteil?
Welche Aufgaben kann man mit diesem Produktteil erledigen?
Ziel des Tests
Am Anfang abstrakte Fragestellungen
Beispiele
Ist System gut benutzbar?
Ist System effizient zu verwenden?
Diese Fragestellungen konkretisieren
Beispiele
Können BenutzerInnen das System selbständig und ohne Hilfestellung in Betrieb nehmen?
Wissen BenutzerInnen, was sie mit dem System machen können?
Können BenutzerInnen mit dem System [Aufgabe X] selbständig erfüllen?
Ist die Antwortzeit des Systems ausreichend schnell?
Sind die Icons verständlich?
Sind die vorhandenen Konfigurationsmöglichkeiten verständlich?
Sind die vorhandenen Konfigurationsmöglichkeiten ausreichend?
Lässt sich das System ausschließlich mit einem Touchscreen bedienen?
Verwenden die BenutzerInnen Tastatur-Shortcuts?
...
Metriken und gesammelte Daten
Qualitative Daten
Beobachtungen des Teams: Aussagen
Quantitative Daten
Erfolgsrate: Anzahl der erfolgreich abgeschlossenen Tasks
Fehlerrate (kritisch vs. nicht-kritisch): Anzahl der nicht erfolgreich abgeschlossenen Tasks
Hilfestellungen: Anzahl der benötigten Hilfestellungen
Zeit: Zeit benötigt für Tasks
Zufriedenheit: Subjektive Eindrücke via Fragebogen
Zeitplan
Zeitpunkte definieren:
Produkt bereit zum Testen
Test
Testsessions (Dauer pro Test und Anzahl der Tests pro Tag)
Analyse der Ergebnisse
Präsentation
Ergebnisse benötigt (Deadline)
Taskliste
Tasks
Realistische Szenarien
Vordefinierte Aufgaben für Testpersonen basierend auf Anforderungen der Enduser (keine technischen Anforderungen)
Lenkung auf kritische Aspekte der App
Herausforderung
a) offen → eher qualitative Daten
autonome Lösungsfindung, kein konkreter Fokus
b) spezifisch → eher quantitative Daten
stärkere Lenkung der Testpersonen
Zerlegung von Szenarien in Teilkomponenten
Einschränkung des Spielraumes für bessere Überprüfbarkeit (keine step-by-step Anweisungen)
Teilkomponenten alleine müssen ein realistisches Anwendungsszenario sein
Beispiel
Die Teilkomponenten stehen in eckigen Klammern.
- Registrierung eines / einer neuen BenutzerIn [1]
- Login eines / einer bestehenden BenutzerIn [1]
- Produkt bestellen [2, 4, 6]
- Mehrere Produkte miteinander vergleichen [2, 3]
- Versandkosten ermitteln [5]
- ...
Beispiel-Task
Task Komponente | Beschreibung |
---|---|
Task | Produkt bestellen |
Vorberdingung | Das Produkt (Batterien) ist im System vorhanden. Die Startseite des Online-Shops ist im Browser geöffnet. Der Benutzer ist eingeloggt und sämtliche relevanten Daten (Name, Adresse, Zahlungsinformation) sind bei dem verwendeten Account hinterlegt. |
Endzustand | Die Bestellung wurde erfolgreich abgeschickt. |
Benchmark | 10 Minuten |
Script | Sie bemerken, dass die Batterien in Ihrer Fernbedienung langsam schwächer werden. Bestellen Sie 4 Stück neue AA-Batterien zu sich nach Hause. |
Script ist die Anweisung an die Testperson und ein reales Szenario.
Sagt was das Endziel ist und nicht wie man es richtig macht.
Testperson bekommt nur Script zu sehen (alles andere für das Testteam).
Benutzerprofile definieren und Testpersonen rekrutieren
Testperson muss repräsentativ für Zielgruppe / Enduser sein (sonst Tests nicht aussagekräftig)
Screening Fragebögen für Auswahl der Testpersonen
Kategorisieren
zB Anfänger, Experte oder nach Personas Konzept von Cooper, 1999
Anzahl
Idealerweise 3-5 Testpersonen mit so vielen Tests wie nur leistbar.
Für Benchmarking und wissenschaftlichen Experimenten 20+
Formel
gesamte Anzahl der usability Probleme
Anteil (zwischen 0-1) an usability Probleme mit nur einer Person ( )
RITE: Rapid Iterative Testing and Evaluation
Testen bis man Problem gefunden hat - sofort aufhören und korrigieren, erst dann fortsetzen
Benutzerprofile erstellen
Charakteristik | Kriterium | Teilnehmer |
---|---|---|
Android Erfahrung | Über ein Jahr | 45% → 1 - 3 Jahre 35% → 3 - 5 Jahre 20% → 5+ Jahre |
Alter | älter als 18 | Mittelwert: 26,7, Median: 24, Min: 18, Max: 47 |
Geschlecht | ca. gleichverteilt | 45% Männlich, 55% Weiblich |
Erfahrung mit Produkt | Nicht vorhanden | 70% → kannten das Produkt nicht 30% → davon gehört aber nie benutzt |
Testumgebung und Equipment
Hardware, Software, Testumgebung
Equitpment zur Testdurchführung und Datenerfassung
Beispiel
“Die Testumgebung besteht aus einem abgetrennten Büro mit Schreibtisch und zwei Beobachter-Stühlen. Der Computer ist ein Laptop mit 13,3” Screen (1280x800 Auflösung), QWERTZ-Keyboard, Touchpad und einer Zwei-Button-Mouse mit Scrollrad.
Als Betriebssystem kommt Mac OS X 10.15 zum Einsatz. TeilnehmerInnen haben die Wahl zwischen der aktuellsten Version von Firefox, Chrome oder Safari je nach persönlicher Präferenz und Erfahrung. Der Browser ist zu Testbeginn mit der Startseite www.google.com geöffnet.
Audio und Video werden während des Tests mit der im Laptop integrierten Videokamera bzw. Mikrofon aufgezeichnet. Bildschirminhalte werden mit Quicktime aufgezeichnet.
Zeitmessungen werden manuell von einem Beobachter durchgeführt.”
Testablauf in Testsessions
Anweisungen für Testteam
Anweisungen an Team
„Der/die TestleiterIn sitzt mit dem/der TeilnehmerIn in einem Raum während der Durchführung des Tests. Der/die TestleiterIn startet die einzelnen Tasks nach erfolgreicher Vorbereitung und dokumentiert Fehler, Beobachtungen und Zeitmessungen. Der/ die TestleiterIn leistet keine Hilfestellungen außer der/die TeilnehmerIn weicht gravierend vom Lösungsweg ab und beantwortet nur Fragen, die die Testergebnisse nicht beeinflussen. Der/die TestleiterIn steht im Fall von EquipmentFehlern und technischen Problemen zur Verfügung. TeilnehmerInnen erhalten die Aufgabenbeschreibung in schriftlicher Form und sind angehalten, die Aufgaben selbständig und möglichst rasch mit dem vorhandenen Test-Equipment durchzuführen.”
Lerneffekte vermeiden
Balancing der Testreihenfolge mitLatin Square Balancing
Balancieren nicht immer notwendig
Aufbau:
Linkeste Spalte: Testperson
Oberste Zeile: Task Reihenfolge
Inhalt: Tasks selbst
1 | 2 | 3 | 4 | |
---|---|---|---|---|
TP1 | A | B | C | D |
TP2 | B | D | A | C |
TP3 | D | C | B | A |
TP4 | C | A | D | B |
Comparison Testing: Within-Subject vs. Between-Subject Design
zB Frage: Kann man mit Maus oder Touchscreen das Interface schneller bedienen?
- Unabhängige Variable: Eingabegerät (Maus/Touchscreen)
- Abhängige Variable: Zeit für die Erfüllung
Within subject design
Jede Testperson in jeder Bedingung
Vorteil: Weniger Testpersonen
Nachteil: Lerneffekte (muss durch Latin Square ausgeglichen werden)
Between subject design
Jede Testperson in nur einer Bedingung (Gruppen müssen vergleichbar sein)
2) Durchführung
Vor Durchführung des Usability Tests
Den Test selbst durchführen
für Zeitplan (Sessions) und Testdesign
Pilottest durchführen
Tasks, Testplan, Material
Produkt, Testzubehör, Testumgebung prüfen
Allgemeine Tipps für die Durchführung
Eine angenehme Atmosphäre schaffen, respektvoll und neutral sein
Testpersonen nicht sofort helfen
Gute Aufzeichnungen führen
Testmaterial
Testmaterial
Orientierungsscript
Vorstellung
Zweck des Tests
Hinweis, dass das Produkt und nicht die Testperson getestet wird
Hinweis, dass das Produkt noch fehlerhaft sein kann
Auf Video- und Audioaufnahmen hinweisen
Testperson aufklären, dass sie jederzeit aufhören oder Fragen stellen kann
Background Fragebogen
Demographische Daten
Computererfahrung
...
Pre-Test Fragebogen
Eindrücke vor dem eigentlichen Test
Erfahrung mit diesem oder einem ähnlichen Produkt
Task-Liste
Realistische Szenarien
Jede Aufgabe auf einem eigenen Blatt
Beschreibung des Ziels, nicht der einzelnen Schritte
Trainingsmaterial (optional)
Walk-through von Beispielaufgaben
Demonstration der Oberfläche (GUI)
Demonstration der Interaktionsmöglichkeiten
Non-Discolsure Agreement NDA
Einverständniserklärung zur Aufzeichnung
Logging Sheets
Post-Test Fragebogen
Wording
Navigation
Angezeigte Informationen ausreichend
Allgemeiner Eindruck
Standardisierte Fragebögen (SUS, CSUQ, ...)
Debriefing
Strukturiertes Interview: Themen, die nach dem Test noch geklärt werden sollen
Checkliste
Chronologische Liste des Testablaufs (immer gleich)
Durchführung der Test-Sessions
Durchführung der Testsessions (Version 1)
- Begrüßung und Background Fragen
Jeder Teilnehmer persönlich von Testleiter begrüßt und muss Background-Fragebogen (Anhang A) ausfüllen.
- Orientierung
Verbale Einführung mit Orientierungsskript (Anhang B): Zweck, Ziel von Test und Einführung in Test-Equipment. Einwilligung dass Aufzeichnungen gemacht werden.
- Durchführung der Test-Session
Vordefinierte Tasks werden unter Beobachtung durchgeführt.
Ablauf:
-
Testleiter liest Task vor und übergibt ihn auch auf einem Blatt.
Danach versucht Testperson den Task auszuführen. (Testleiter dokumentiert Zeit, Fehler, Beobachtungen)
- Nach erledigung wird ein Post-Test-Fragebogen ausgefüllt.
-
Testleiter liest Task vor und übergibt ihn auch auf einem Blatt.
- Teilnehmer Debriefing
Testleiter stellt Fragen zu:
Gesamtzufriedenheit mit UI
Kommentare und Empfehlungen zu UI
Dingen und spezifischen Fehlern und Beobachtungen die während dem Test aufgetreten sind
Durchführung der Testsessions (Version 2)
- Begrüßung
in angenehmer Umgebung, nicht Testlabor
- Ausfüllen von einleitenden Dokumenten
NDA, Erlaubnis zur Aufzeichnung, Background Fragebogen
- Orientierungsskript vorlesen
Dies dient der Erklärung des Testablaufs und der Betonung von Methoden (z.B. Thinking-Aloud), die verwendet werden.
Hinweis an Person: Es wird das Produkt, nicht die Testperson getestet!
- Ausfüllen von Pre-Test Fragebögen
Wenn sinnvoll mit Background Fragebogen kombinierbar
- Vorbereitung im Usability Labor
Vorstellung der Beobachter, Erklärung der Testeinrichtung
- Vorbereitendes Training
kann notwendig sein um Testperson mit Produkt vertraut zu machen
- Ausgeben der Task Szenarien
Task einzeln, schriftlich, sequentiell ausgegeben.
Nachlesen jederzeit für Testperson möglich.
- Startzeit aufnehmen, Testperson beobachten, kritische Daten aufnehmen
Datensammlungs-Instrumente starten
- Ausfüllen der Post-Test Fragebögen
Vor Diskussion Fragebogen ausfüllen damit Einfluss vermieden wird.
- Debriefing
Fragen die während des Tests aufgetaucht sind beantworten
- Bedanken und verabschieden
- Daten und Logging Sheets sammeln
Alle Daten, Formulare, Kommentare (auch von Beobachter) sammeln
Thinking-Aloud
Thinking-aloud
a) Concurrent lautes Nachdenken während Ausführung von Aufgaben
b) Retrospective lautes Nachdenken nach der Ausführung (zB mit Screenrecordings)
Relevante Aussagen sind über Gedankengänge - nicht über Meinungen, Designvorschlägen, etc.
Beispiele
Relevant
▪ Ich will ... machen. ▪ Ich glaube ... passiert wenn ich hier draufdrücke. ▪ Das ist nicht was ich erwartet habe, ich dachte ... ▪ Das hat länger gedauert als erwartet.
Irrelevant
▪ Ich finde der Button sollte rot sein. ▪ Ich glaube nicht, dass andere Benutzer das so machen würden.
Vorteil
Überlegungen lassen sich beobachten und dadurch Usability Probleme finden
Nachteile
Ungewohnt für Person
Intensiveres Denken und Entschleunigung der Arbeitsgeschwindigkeit (bei Concurrent)
Höherer Zeitaufwand (bei Retrospective)
Co-Discovery (Variante von Thinking-aloud)
Zwei Testpersonen führen Test gemeinsam und kommunizieren miteinander
Vorteil: Natürlicher Dialog mit geringerer Hemmschwelle als Thinking-aloud
Nachteil: Man braucht doppelt so viele Testpersonen und die Ergebnisse sind nicht so valide da der Enduser das Interface alleine nützt
Guidelines für Teammitglieder
Teammitglieder Rollen
Testleiter (Verantwortlicher)
Moderator (Kommuniziert mit Testpersonen)
Protokollant
Zeitnehmer
Video/Audio Operator
Produktspezialist / technischer Spezialist
Zusätzliche Testrollen
Testbeobachter
Interaktion mit Testperson
Jede Interaktion stört den Test und beeinflusst das Ergebnis → Nur so viel Interaktion wie absolut notwendig.
Es müssen Personen bestimmt werden als: Ansprechperson, um Testperson zu unterbrechen, über das Ende der Aufgabe zu entscheiden
Ansprechperson
Moderator ist der einzige Ansprechpartner für Testperson.
Kommunikation im Labor zB via Sprechanlage.
Testperson unterbrechen
Gründe für Unterbrechungen:
Erinnerung an “Thinking-Aloud”
Wenn zu schnell (keine Pausen zwischen Aufgaben) oder zu langsam
Technische Probleme
Entscheidung über das Ende der Aufgabe
Testperson entscheidet
Es gibt aber 2 weitere Fälle (die zB durch falsche Rückmeldungen auftreten können):
- false negative: Testperson ist fertig aber weiß es nicht
-
false positive: Testperson sagt sie ist fertig, ist es aber nicht
für vergleichbare Tests oder um mehr zu lernen weitermachen - ansonsten falls genug dokumentiert wurde unterbrachen
Einflussnahme vermeiden
Einflussquelle: Gestellte Fragen und die gegebenen Antworten
Fragen sollten neutral sein und keine Hinweise geben.
Anforderungen an Protokollanten
Protokollant muss System und Testaufgaben kennen und zwischen objektiven und subjektiven Daten unterscheiden können.
Datenerfassung
Vor Ort vs. Aufzeichnungen
Beobachtung vor Ort
Unmittelbar - dadurch geht nichts beim Aufzeichnen verloren (aber Dinge werden nicht festgehalten)
Man kann Unklarheiten mit Testperson direkt ausdiskutieren
Auswertung von Aufzeichnungen
Nützlich für Dokumentation, Reporting
Man spart aber effektiv keine Zeit wenn man die Evaluation verschiebt.
Logging Sheets, Notizen
Anfangszeit - Stopzeit
Aussagen von Testpersonen
Fehler und Probleme (Zeitpunkt, Häufigkeit)
Annahmen und Interpretationen zu Beobachtungen
Liste von Personen und Tasks (idealerweise ein eigenes Logging Sheet pro Protokolant, Teilnehmer, Task)
Standardisierte Fragebögen
Usability
SUS - System Usability Scale
CSUQ – Computer System Usability Questionnaire
SUMI - Software Usability Measurement Inventory
QUIS - Questionnaire for User Interaction Satisfaction
Affekt und Emotion (nützlich für UX)
AttrakDiff
I-PANAS-SF - International Positive and Negative Affect Schedule Short Form
Audioaufnahmen
Wichtig bei Thinking-Aloud.
Nimmt Arbeit von Protokollanten ab.
Screenrecording und Videoaufzeichnung
Spezialisierte Tools: Noldus Observer / Viso
Im OS integriert: Quicktime (Mac OS), Gamebar (Win10)
Opensource: OBS
Testumgebung (Usability Labor)
Mobile Usability Testing
mehr Einschränkungen als bei Desktop (zB kleinerer Bildschirm etc)
Aufzeichnung
Aufzeichnung in OS integriert: Screen recording, screen sharing
Apps: UXCam
Zusätzliche Hardware (beeinflusst Ergebnisse)
3) Auswertung
4) Kommunikation der Ergebnisse
Vertiefende Links
Erste Hälfte (Vorbereitung und Planung)
https://www.nngroup.com/articles/usability-testing-101/
https://www.usability.gov/how-to-and-tools/methods/planning-usability-testing.html
https://www.nngroup.com/articles/test-tasks-quant-qualitative/
https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/
https://www.nngroup.com/articles/how-many-test-users/
Usability Fragebögen
Zweite Hälfte (alles andere)
https://www.usability.gov/how-to-and-tools/methods/running-usability-tests.html
https://www.usability.gov/get-involved/blog/2013/04/moderating-usability-tests.html
https://www.uxmatters.com/mt/archives/2012/03/talking-out-loud-is-not-the-same-as-thinking-aloud.php
https://articles.uie.com/usability_testing_mistakes/
https://www.nngroup.com/articles/remote-ux/
https://www.nngroup.com/articles/moderated-remote-usability-test/