Introducción a las interfaces multimodales
Una interfaz multimodal es aquella que permite la interacción desde múltiples modos de entrada y salida y con diferentes sentidos. Estos modos pueden ser una combinación de voz, gestos, texto e imágenes y la interacción puede darse de forma secuencial o simultánea, pero siempre debe ser viable alternar entre diferentes modos.
Any exchange between a device and a human being where multiple input or output modalities may be used simultaneously or sequentially depending upon context and preference. - Design beyond devices, Cheryl Platz, 2020
Las interfaces multimodales son muy útiles en determinados contextos ya que han demostrado ser más eficientes y accesibles. Podemos encontrarlas en asistentes virtuales como Google, Siri o Alexa, en aplicaciones de Realidad Vritual o Aumentada o en asistencia para la conducción de vehículos.
La primera vez que vimos un prototipo de una interfaz multimodal fue en 1982, en la demo Put-That-There. La investigación del MIT buscaba explorar las posibilidades de un sistema capaz de entender el significado de la voz y los gestos, proyectando el resultado en una pantalla. Aunque en realidad, este prototipo usaba la pantalla para evaluar hasta qué punto la interacción por voz era eficiente, es decir, era suficientemente responsiva.
Eficiencia
Las interfaces multimodales se consideran más eficientes que una interfaz de voz o una interfaz gráfica ya que permiten a las usuarias elegir el modo de interacción más eficiente dependiendo de las demandas de información o el tipo de tarea que están realizando.
Así lo demuestran el la investigación 'Touch? Speech? or Touch and Speech? Investigating Multimodal Interaction for Visual Network Exploration and Analysis' donde analizan cómo la gente interactúa con una red de información conectada.
En el experimento se les pedía a la gente hacer varios tipos de tareas:
- Cuando se les pedía buscar información en concreto, localizar un nodo o un camino: usaban la voz principalmente.
- Cuando se les pedía explorar o entender cómo relacionaban esos nodos: usaban la interacción táctil sobre la pantalla.
- Para filtrar y buscar conexiones usaban ambas interacciones casi por igual.
Y la satisfacción final era siempre positiva.
Esto se debe en parte a que las personas hablamos más rápido que escribimos (si tenemos claro qué decir) por lo que verbalizar una intención clara es más directo que navegar o explorar datos hasta localizarla.
Por otro lado leemos (y escaneamos información) más rápido de lo que podemos escuchar, por lo tanto, cuando tenemos que interpretar un resultado nos es más fácil usar la vista que el oído.
Y este contexto de interacción sólo es posible en un entorno multimodal.
Accesibilidad
La accesibilidad de las interfaces multimodales es también mayor ya que el modo de interacción preferido puede adaptarse mejor a las condiciones del entorno y capacidades de la gente.
Cuando en el contexto de la interacción no es posible ver una pantalla con claridad, estar cerca de un dispositivo, o usar las manos para manipular una interfaz, la interacción por voz es eficaz, ya que permite comunicarse con el sistema, sea o no lo más eficiente.
Por el contrario, cuando por cuestiones de privacidad o eficacia, o en contextos donde el audio no se puede escuchar, las pantallas y la interacción por teclado, ratón, gestos o táctil pueden ser más eficaces.
La interacción gráfica y de voz
En el artículo Tipos de interfaces, vimos cómo cada paradigma de interacción está diseñado para cierto tipos de tareas de forma eficaz y que, lejos de compararlos en un marco universal de usabilidad inexistente, debemos comprender cuáles son esas características que las hacen eficaces y eficientes en un contexto y cuáles son sus limitaciones.
Mirar y comprender
Una de las grandes ventajas de las interfaces gráficas es su capacidad para representar una gran cantidad de datos en un espacio pequeño visual que nos permite escanear rápidamente y extraer significados.
Gracias al uso de la metáfora y la abstracción, podemos comprender la estructura tras la información, eliminar barreras de comprensión y anticiparnos a su funcionamiento.
Sin embargo, las interfaces gráficas a veces tienen un coste en nuestra carga cognitiva por su diseño.
Nos cuesta mucho filtrar qué información es relevante y cuál no. Los pop-ups, banners, animaciones, captan nuestra atención sin poder evitarlo, generando ruido e interrupciones. Incluso algunos patrones de diseño, engañosos o no, pueden llevarnos a un uso inconsciente y descontrolado.
Teclear y clicar
La ergonomía de la interacción es otro de los factores a tener en cuenta cuando decidimos usar una u otra interfaz.
Por un lado, debemos considerar la curva de aprendizaje de algunos artefactos como teclados o gestos (más allá del touch y swipe), y la capacidad necesaria para usarlos con precisión y con la velocidad adecuada, como nos pasaría con el ratón es otro elemento que afecta a su eficiencia. Además, teclados, ratones y pantallas ocupan un espacio físico considerable que puede suponer una barrera en entornos compartidos.
Esto no quiere decir que no sean adecuados, de hecho para tareas donde la entrada de texto o la manipulación de objetos en una superficie es necesaria, está sobradamente demostrada su eficacia.
Tocar y arrastrar
Las interfaces gráficas táctiles disponibles generalmente a través de dispositivos móviles y tablets, pero también en ordenadores personales y otras superficies interactivas, se han mostrado idóneas para personas y contextos de uso donde la precisión del ratón o teclear supone una barrera de esfuerzo.
Los gestos como tocar, deslizar o pellizcar, pueden resultarnos naturales cuando manipulamos objetos físicos y parecen intuitivos cuando los objetos virtuales tras la pantalla responden a las mismas leyes físicas.
Sin embargo, en estos contextos también debemos tener en cuenta otros factores como:
- La seguridad y privacidad asociada a dispositivos personales o de uso individual,
- El compromiso necesario entre espacio e información que mostrar, sabiendo que debe ser manipulable con los dedos de una mano,
- La distancia entre la pantalla y los ojos tiende a reducirse en dispositivos de poco peso y tamaño.
Hablar y escuchar
Como vimos en el artículo de Interfaces de voz, la interfaces conversacionales pueden considerarse más intuitivas desde el punto de vista del conocimiento necesario: el lenguaje.
Además ofrecen la posibilidad de acceder directamente a la información sin necesidad de comprender ninguna estructura abstracta, sin estar cerca o llevar encima ningún dispositivo y sin usar las manos para la interacción.
Sin embargo, las respuestas por voz están limitadas por nuestra capacidad de atención auditiva: extremadamente breve en comparación con la visual.
Es como si sólo pudiéramos ver trozos parciales de un texto que pasa muy rápido
Además, descubrir qué es posible y qué no en una experiencia conversacional está limitada por el propio intercambio de turnos, lo cual no facilita la exploración y la findability de la información.
La interacción multimodal supone un nuevo enfoque de diseño para crear experiencias ricas con la tecnología. Conviene entender y conocer los factores de diseño de cada modalidad e identificar la conveniencia dependiendo de usuarios y contexto.
Podemos confiar en procesos clásicos de Diseño Centrado en el Usuario y un análisis profundo de los Tipos de Interfaces así como de la comprensión de la interacción persona-ordenador para evaluar cómo debemos diseñar para interfaces multimodales.
Una lectura recomendada para iniciarse en este nuevo paradigma es:
Member discussion