18 de noviembre de 2019

Jesús Martín (Alexa Amazon) nos habla del diseño de los asistentes de voz

Jesús Martín es Diseñador Senior de Interfaces de Voz de Usuario y UX en Alexa Amazon, después de una trayectoria en la que pasó por el mundo de la Publicidad, acens y algunos proyectos de innovación en BBVA. Él es un buen ejemplo de que la transformación digital también está en las personas. Martín nos ha contado cómo es el mundo de los asistentes de voz y qué nos depararán en el futuro próximo.

“A mí me gustaba escribir y me pareció que las interfaces conversacionales podían aunar esa parte de interacción que había aprendido con esa pasión mía de escribir. Decidí seguir por ahí y buscar la empresa que mejor podía ayudarme en eso, que era Amazon”, cuenta Martín, quien lleva un año trabajando en el equipo de Alexa, ayudando a los desarrolladores de Skills de Francia, Italia y España.

Para explicar la tecnología que envuelve el proceso para que el asistente responda, Martín nos habla de la teoría de las cinco cajas:

1.- Automatic Speach Recognition (ASR): tecnología que transforma los comandos de voz en una cadena de texto. Por ejemplo, si el usuario dice: “Quiero una pizza Margarita”, ASR hace esa transcripción.

2.- Natural Language Understanding (NLU): estructura la información para entender dentro de esa cadena de texto la intención de la frase. En nuestro ejemplo NLU entiende que la intención es que el usuario quiere pedir una pizza, y que hay una variable que el tipo específico, Margarita.

3.- Gestión del diálogo: guarda esa información que vamos dando al sistema y se encarga de hacer llamadas a bases de datos, buscar información en otro tipo de fuentes… sería como el Backend. Siguiendo el ejemplo, miraría en la base de datos si realmente hay pizzas Margaritas disponibles o no, si se puede realizar el pedido, etc.

4.- Generación de respuesta: tras comprobar en la base de datos que hay pizzas Margaritas, el sistema genera por escrito una respuesta, por ejemplo: “Sí, tengo pizzas Margaritas, ¿te pido una?”

5.- Respuesta de voz: el sistema transformar esa cadena de texto en un audio. El asistente responde: “Sí, tengo pizzas Margaritas, ¿te pido una?”

“Hay tecnologías llamadas Speaker ID, que consisten en la identificación de un usuario en base al hablante, es algo que está todavía en desarrollo”, comenta acerca de si los asistentes de voz van a responder de forma diferente según la persona que hable: “Ya hay cosas en el mercado y personalmente creo que va a provocar una evolución importante porque al final no parece muy natural si siempre responde lo mismo a todos los usuarios”. Una de las ventajas de los asistentes de voz es que facilitan la formación del usuario, por ejemplo a la hora de aprender idiomas con la Skill de Oxford en formato podcast o ‘Palabras británicas’: “Poder escuchar clases de inglés es interesante, si además tenemos un dispositivo con el que podemos interactuar el interés se multiplica. Puede haber muchas cosas interesantes en el futuro por ahí”.

Sin embargo, una de las principales frustraciones a la hora de usar estos dispositivos es que no nos comprenda o no haga cosas sencillas, como puede ser preguntar la hora o indicar que pause Netflix. “El problema de la comprensión es algo realmente muy humano, por ejemplo la comunicación por teléfono es más complicada que una comunicación en vivo, y hay malos entendidos, hay un montón de situaciones que se dan entre las personas, que normalmente las personas tenemos mecanismos para deshacer esos entuertos. Los porcentajes de comprensión son muy altos, no recuerdo la cifra pero se está hablando de más del 90% de capacidad de comprensión. Pero bueno siempre se puede hacer mucho mejor y efectivamente es algo en lo que se trabaja continuamente, de las cinco cajas que te comentaba al principio es la primera cajita de ASR, que es en realidad de las tecnologías que más tiempo llevan desarrollándose y que tiene más recorrido, pero que sigue necesitando seguir aprendiendo”.

Martín indica que a los usuarios les gusta mucho toda la parte de Smart Home, el control domótico, poder controlar con la voz las luces de la casa, las persianas, la calefacción o la reproducción de música: “También hay muchos juegos que resultan muy interesantes, como ‘Puesto de limonadas’ o ‘Veo, veo’, creo que por ahí va a haber mucho desarrollo, la industria del juego suele tener bastante tirón, y luego personalmente creo y confío mucho en todo lo que tenga que ver con la educación”. Hay templates creados por Amazon que son públicos y que se pueden ver en GitHub, “por ejemplo hay un formato de Skill que es el Flash Briefing que básicamente es como un lector de RSS, si tú tienes un podcast podrías crear una skill muy sencilla, y cada vez que se publica un podcast nuevo se actualiza”. Para cosas más complejas han surgido los Voice Studios como Monoceros.

“Cada poco recibimos alguna historia real de alguien que su vida de alguna manera ha mejorado con este tipo de tecnologías, lo cual es una alegría”, señala Martín, y es que dispositivos de voz ayudan a las personas con problemas visuales a acceder al mundo digital, como por ejemplo nos comentó en nuestro anterior podcast Jonathan Chacón, un desarrollador ciego que trabaja para mejorar la accesibilidad en Cabify. Martín continúa: “El tema de la accesibilidad me interesa personalmente mucho y en realidad creo que hay que entenderlo como que todos en situaciones dadas tenemos problemas de accesibilidad, si estoy cargando cajas no tengo capacidad de utilizar mis manos”.