Métricas de la experiencia de usuario
En el artículo publicado Cuantificar la experiencia de usuario, hablamos de la necesidad de introducir una evaluación cuantitativa en nuestros procesos de diseño para mejorar la experiencia de usuario y la usabilidad a lo largo del tiempo.
En este artículo me gustaría explicaros qué métricas podemos tomar para poder hacer una evaluación objetiva y provechosa.
Midiendo la usabilidad
Recordemos qué es la usabilidad:
Grado de eficacia, eficiencia y satisfacción con la que usuarios específicos pueden lograr objetivos específicos, en contextos de uso específicos.
Si sólo nos fijamos en esta definición ya podemos identificar posibles métricas que nos indiquen el grado de usabilidad de un producto para una persona en un contexto determinado:
- Eficacia: ser capaz de terminar una tarea.
- Eficiencia: esfuerzo requerido para completar una tarea.
- Satisfacción: cómo de agradable ha resultado la ejecución de dicha tarea.
Pero además podemos añadir dos características más donde no sólo observemos la usabilidad en un momento concreto sino como una ‘experiencia’ a lo largo del tiempo:
- Facilidad de Aprendizaje (Learnability): cómo de fácil resulta para la gente llevar a cabo tareas básicas la primera vez que se enfrentan al diseño respecto a sucesivas veces.
- Cualidad de ser recordado (Memorability): cuánto tarda la gente en volver a adquirir el conocimiento necesario para usarlo eficientemente un producto después de un periodo sin hacerlo.
Con estos datos de inicio, ya podemos formarnos una mejor idea de cómo puede resultar la experiencia de usuario desde el punto de vista de la interacción de una persona con la tecnología.
Además de estas métricas, podemos incluir otras medidas cuantificables que hayan sido identificadas por métodos de evaluación heurística o por otros medios de investigación.
Veamos en profundidad éstas y otras métricas clasificándolas por el tipo de información que nos ofrecen.
Tipos de métricas
Las métricas pueden responder algunas preguntas de la investigación de usuarios en diferentes momentos del desarrollo y diseño del producto:
- ¿Qué hacen…
- ¿Qué dicen…
- ¿Qué observamos…
- ¿Cómo piensan…
... nuestras personas usuarias?
Para saber qué hacen tomaremos métricas de su rendimiento, para conocer qué dicen, les pediremos que reporten sus opiniones, para detallar qué observamos evaluaremos como expertos un producto, y para entender cómo piensan, les propondremos ejercicios de clasificación.
- ¿Qué hacen…? → Métricas de rendimiento (Performance Metrics).
- ¿Qué dicen…? → Métricas reportadas por los usuarios.
- ¿Qué observamos…? → Métricas basadas en fallos de usabilidad.
- ¿Cómo piensan…? → Métricas basadas en categorización de contenidos.
¿Qué hacen los usuarios? Métricas de rendimiento
Éxito de la tarea
Es una de las métricas más universales, fáciles de recoger y clarividentes: si un usuario no es capaz de completar una tarea es una evidencia de que algo puede estar fallando en la usabilidad de nuestro producto.
Para medir el éxito de la tarea, cada tarea tiene que tener un estado final claro como por ejemplo: comprar un producto, encontrar una información concreta, completar un formulario, etc. Por lo tanto hay que definir qué significa el éxito, qué criterio define una finalización correcta, antes de comenzar la recolección de datos.
Cuando se hacen tests en un laboratorio, es muy fácil conocer el resultado si las participantes lo verbalizan tras realizar la tarea. Aunque a veces cueste interpretarlo, se les pedirá que informen cuando consideren la tarea terminada (que hayan alcanzado el objetivo o no dependerá de la definición de la prueba).
¿Cómo medir el éxito de la tarea?
- Binario: 1 (Éxito) o 0 (Fracaso)
- El cálculo que haremos simplemente es realizando porcentajes de éxitos y fracasos determinando el número medio de los mismos.
- Media de la tasa de éxito por tarea para todos los participantes
- Media de la tasa de éxito por participante para todas las tareas
- Hay muchas maneras de entender el ‘fracaso’, conocerlas dependerá de la técnica de evaluación utilizada, en cualquier caso es importante acordar una convención para hacer una correcta interpretación de los resultados
- Las personas abandonan la tarea.
- La persona moderadora interrumpe el estudio.
- El tiempo en realizar la tarea es ‘demasiado’ largo.
- La persona se ha equivocado.
- También puede haber formas de entender el éxito si comparamos esta métrica con otras que veremos más adelante como el tiempo en tarea, el número o tipo de errores encontrados durante la ejecución o la eficiencia.
- Otra forma de analizar el resultado binario de la ejecución de la tarea es segmentando por el tipo de usuario
- Frecuencia de uso.
- Familiaridad con la herramienta.
- Nivel de conocimiento del dominio.
- Otras relacionadas con su edad, género, origen si procede.
Tiempo en tarea
El tiempo dedicado para la realización de una tarea es una de las mejores formas de medir la eficiencia.
No debemos caer en la premisa de que más tiempo es siempre mejor, tendremos que hacer uso de otras variables como el esfuerzo o los errores para poder interpretar mejor este valor. Por otra parte hay productos cuyo objetivo es retener y entretener a las personas mientras otros buscan hacerlas más productivas.
Medir el tiempo en tarea es especialmente importante cuando son tareas que se realizan muchas veces por las personas usuarias. Cuanto más frecuente es la tarea más importante es la eficiencia.
¿Cómo medir el tiempo en tarea?
- A través de la interpretación de la grabación.
- Pidiendo a las participantes que te informen de cuando consideran la tarea terminada (y contando el tiempo transcurrido desde el inicio).
- Automáticamente desde el momento en que interactúan con algún componente visual.
Cuando analizamos el tiempo en tarea solemos usar la media geométrica en lugar de la media. La mediana es el punto medio entre la ejecución más rápida y la más lenta, y en práctica es más apropiada que la media convencional.
- Media de 2 y 8 = (2+8)/2 = 5
- Media geométrica de 2 y 8 = raíz(2*8) = raíz (16) = 4
Errores
Los errores son comportamientos incorrectos de las personas participantes que pueden llevar a la tarea al fracaso. Nos interesa medir los errores y compararla con el resultado de la tarea para entender si su ejecución ha sido más o menos directa y por lo tanto para conocer la eficiencia.
¿Cuándo medir errores?
- El error significa una falta significante de eficiencia, pérdida de datos, repetir una acción o ralentizar la ejecución.
- El error resulta en un coste significativo para tu organización o para la persona, por ejemplo la necesidad de pedir ayuda a un servicio de atención al cliente.
- Cuando el error resulta en el fallo de la tarea.
¿Cómo analizamos los errores?
- Frecuencia de los errores por tarea
- Media de errores por tarea y por usuario
- Frecuencia de ejecuciones por encima o por debajo de un umbral.
Posibles fallos contando errores:
- Contar el mismo fallo dos veces
- Asumir que los errores son todos del mismo tipo: pueden clasificarse e incluir un grado de severidad.
- Errores que son equivalentes a dar la tarea por fracasada.
Eficiencia
El tiempo en tarea es usado frecuentemente para medir la eficiencia, pero otra forma es mirar la cantidad de esfuerzo requerido. Generalmente mediremos el número de acciones o pasos requeridos para ejecutar la tarea, ya sea a través del número de interacciones, páginas visitadas o tiempo de inactividad.
El esfuerzo puede ser físico, en el que se requiere actividad física para realizar una acción como por ejemplo mover el ratón, o cognitivo el cual involucra el procesamiento necesario para decidir la acción que se va a realizar, como por ejemplo encontrar información.
Una forma interesante de medir el esfuerzo cognitivo es a través de tareas periféricas. Si la tarea primaria requiere mucho esfuerzo cognitivo resultará que la tarea periférica tendrá un peor rendimiento. Por ejemplo podemos pedir una tarea concreta a un usuario y después preguntarle si recuerda algunos detalles de los diseños que ha visitado o no.
¿Cómo medir la eficiencia?
- Lostness
- N: Número de páginas/secciones diferentes visitadas
- S: Total de páginas/secciones visitadas
- R: Número mínimo de páginas que deben ser visitadas
- L = sqrt[(N/S-1)^2 + (R/N-1)^2]
- Combinando el tiempo en tarea y el ratio de éxito de la tarea.
- Combinando el tiempo en tarea y el número de interacciones y decisiones realizadas.
Aquí reitero algo que he descrito en otros artículos:
- No siempre una tarea que requiere más interacciones (más clicks por ejemplo) requiere más esfuerzo.
- Una tarea ejecutada en 10 segundos que ha requerido 3 clicks no es menos eficiente que una que ha requerido 1 click pero el usuario ha necesitado 30 segundos en saber cuál era el elemento interactivo.
- La carga mental forma también parte del esfuerzo (es algo que podríamos incluso cuantificar si medimos el tiempo entre interacciones, por ahora no lo estamos haciendo).
Aprendizaje
No todos los productos pueden simplificar al máximo su uso de forma que resulten totalmente intuitivos desde la primera experiencia con ellos. La experiencia, de hecho, se basa en el tiempo que dedicamos a usar un producto y la variedad de tareas que realizamos con él.
Aprender a usar un producto puede ser rápido y fácil o arduo y dedicado.
La curva de aprendizaje mide el grado en el que un producto puede ser aprendido de forma eficiente. Puede ser medido observando cuánto tiempo y esfuerzo es requerido para una persona hasta convertirse en ‘experta’ pidiéndole realizar las mismas tareas en diferentes intervalos de tiempo (en la mismo o diferentes sesiones) y analizando el resto de métricas de rendimiento.
¿Cómo medimos el aprendizaje?
- Tendencia de la eficiencia a lo largo del tiempo.
- Tiempo requerido para alcanzar una eficiencia óptima.
¿Cómo analizamos el aprendizaje?
- Intentos en la misma sesión.
- Intentos en la misma sesión con paradas entre tareas.
- Intentos entre sesiones.
¿Qué dicen los usuarios?
No todas las personas sabemos expresar con palabras la satisfacción o insatisfacción que nos causa el uso de un producto digital. A veces simplemente reaccionamos con gestos, expresiones o guardamos silencio.
Las personas usuarias no son menos, a pesar de que nuestra expectativa por conocer qué piensan y, a veces, nuestras críticas sobre cómo expresan los problemas nos lleva a creer que sólo lo que se dice es relevante, las palabras también nos pueden dar lugar a equivocaciones.
Sin embargo es importante escuchar y hacerles ver que son escuchados. Durante una sesión de test con usuarios una técnica muy efectiva es el think-aloud. A los usuarios se les pedirá que cuenten qué están intentando hacer durante la resolución de una tarea. Después de haber completado la tarea se les puede preguntar que califiquen el grado de complejidad percibida en la tarea.
De esta forma podremos saber cómo varía su percepción a lo largo del tiempo. Si además les solicitamos esta información antes de realizar la tarea podríamos comparar sus expectativas con su experiencia final.
Finalmente, tras la realización de una sesión de test completa se les puede pasar una encuesta estándar conocida como Software Usability Survey para que puedan expresar con escalas de uno a cinco cuál es el grado de usabilidad general percibida en la solución.
En resumen, conseguiremos información mucho más valiosa si no hacemos preguntas directas a los usuarios sobre ‘gustos’ sino pidiéndoles que valoren soluciones específicas para tareas y problemas concretos expresándose como grados de satisfacción, al mismo tiempo que escuchamos y observamos sus comentarios y expresiones durante el intento de realización de dichas tareas.
En resumen:
- Qué dicen tras la ejecución de una tarea en concreto.
- Qué dicen tras la finalización de una sesión de test.
- SUS (System Usability Survey) pueden ser muy efectivos incluso para comparar diseños.
- Evaluar aspectos concretos del producto/servicio.
¿Qué observamos?
Cuando realizamos revisiones de experto o heurísticos de usabilidad iremos identificando una serie de problemas que en principio nos darán una métrica puramente cualitativa.
Normalmente, un problema viene descrito por un título y una descripción del mismo, aunque es recomendable añadir también un grado de severidad y relacionarlo con la tarea específica que el usuario estaría intentando hacer en ese momento.
El grado de severidad y la frecuencia de aparición nos van a ayudar de nuevo a cuantificar esta métrica.
Hablábamos al principio de la sesión de los principios heurísticos de Nielsen, y son ciertamente estos principios los que se observan y evalúan siguiendo ciertos escenarios de tests donde los/as expertos/as nos ponemos en la piel del usuario y tratamos de analizar cómo está siendo la experiencia con la solución.
Estas revisiones de experto las podemos realizar con la frecuencia que queramos, generalmente de iteración a iteración, ayudan a cazar ciertos problemas antes de que llegue a una versión de producción.
No tiene ningún valor esperar a que un/a usuario/a se queje (ya que posiblemente no lo hará) de que algo está mal alineado o es inconsistente, sin embargo lo que sí hará será percibir desorden en la interfaz, notar cómo dificulta su aprendizaje y, posiblemente, no volver a utilizarlo.
Además de las heurísticas de usabilidad, podemos anotar cuántas veces suceden cierto tipo de comportamientos:
- Comportamientos que impiden completar una tarea.
- Comportamientos fuera del curso habitual de la tarea.
- Una expresión de frustración.
- Un/a participante creyendo que la tarea está terminada.
- Malinterpretar información.
- Malas elecciones para realizar la tarea.
¿Cómo piensan los usuarios?
El card sorting es una técnica de ordenación de contenidos para la organización de sistemas de información de acuerdo a una estructura que tenga sentido para los usuarios.
Se crean una serie de tarjetas con los conceptos que deben ser ordenados y se les piden que realicen grupos donde esos conceptos guarden algún tipo de relación para las personas.
El card sorting puede ser:
- Abierto: pueden definir tantos grupos como deseen.
- Cerrado: los grupos están predefinidos y las personas deben asociar los conceptos donde creen que encajan mejor.
- Mixto: algunos grupos están predefinidos pero se les permiten añadir nuevos grupos.
Una vez tenemos el resultado de todos los participantes, podemos visualizarlos con un dendrograma, donde se visualizarán las relaciones entre conceptos y el porcentaje de coincidencia entre los diferentes modelos mentales.
Combinando métricas
Para tener un indicador general podemos tomar diferentes estrategias.
Una forma sencilla de combinar diferentes métricas es determinar el número de usuarios que han alcanzado un objetivo. Esto nos da un porcentaje global de los usuarios que tuvieron una buena experiencia.
Otra forma alternativa es combinarlas es convertirlas todas en un porcentaje y tomar un valor medio. Esto requiere que para cada métricas podamos manejar un valor máximo y mínimo.
Otra forma es convertir las métricas a un z-score y entonces tomar la media de todas ellas. En este caso, cada métrica tendrán el mismo peso.
Para representar estas métricas podemos usar un indicador general numérico y una gráfica de barras con línea de tendencia combinada.
Member discussion