UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO EVALUACIÓN DE ASISTENTES INTELIGENTES POR VOZ CON BASE EN LA CALIDAD DE LAS RESPUESTAS Trabajo Final de Investigación Aplicada sometido a la consideración de la Comisión del Programa de Estudios de Posgrado en Computación e Informática para optar al grado de Maestría Profesional en Computación e Informática ANA LAURA BERDASCO ROMERO Ciudad Universitaria Rodrigo Facio, Costa Rica 2020 Dedicatoria A mis padres que siempre han sido mi apoyo incondicional y mi mayor tesoro. A Gastoncito, mi inspiración para tomar riesgos y no mirar atrás. A Rafa por apoyarme en cada decisión y motivarme a superarme cada día más. ii Agradecimientos Quiero agradecer a mi profesor guía el Dr. Gustavo López Herrera por todo el apoyo y confianza brindada durante este trabajo de investigación, además del soporte y la guía académica. De igual manera al M.Sc. Ignacio Díaz Oreiro y al Dr. Luis Quesada Quirós por toda su dedicación y críticas útiles. Un especial agradecimiento a todos los participantes del estudio, por su colaboración y el tiempo invertido. También agradezco a los miembros del Centro de Investigaciones en Tecnologías de la Información y Comunicación (CITIC) de la Universidad de Costa Rica, por el apoyo y la retroalimentación recibida durante todo el proceso de la investigación. Agradezco a todos los profesores de los cursos de maestría, pero en especial a la profesora Marta Calderón por su dedicación en cada uno de los cursos que tome con ella. iii iv Tabla de contenidos Dedicatoria .......................................................................................................................ii Agradecimientos ............................................................................................................. iii Hoja de firmas ................................................................. Error! Bookmark not defined. Tabla de contenidos ........................................................................................................iv Índice de figuras ..............................................................................................................vi Índice de cuadros ........................................................................................................... vii Resumen ....................................................................................................................... viii Introducción ..................................................................................................................... 2 1.1 Objetivos ............................................................................................................ 3 1.1.2 Objetivo General .......................................................................................... 3 1.1.3 Objetivos específicos ................................................................................... 3 Estado del Arte ................................................................................................................ 5 2.1 Trabajo Relacionado .............................................................................................. 5 Marco Conceptual ........................................................................................................... 7 Metodología .................................................................................................................. 10 Resultados .................................................................................................................... 18 Conclusiones y Trabajo futuro ....................................................................................... 24 Referencias ................................................................................................................... 26 Anexo 1. ..................................................................................................................... 28 Anexo 2. ..................................................................................................................... 37 Anexo 3. ..................................................................................................................... 40 v Índice de figuras Figura 1. Metodología ................................................................................................................ 10 Figura 2. Resultados de la prueba de Shapiro Wilk para la normalidad: ¿Qué tan correctas fueron las respuestas?. ........................................................................................... 16 Figura 3. Resultados de la prueba de Shapiro Wilk para la normalidad: ¿Qué tan buenas fueron las respuestas? ................................................................................................ 16 Figura 4. Resultados de la pregunta "¿Qué tan buenas fueron las respuestas?"........... 19 Figura 5. Resultados de la pregunta “¿Qué tan correctas fueron las respuestas?" ....... 19 Figura 6. Respuestas individuales a la pregunta: ¿Qué tan buena fue la respuesta? ... 21 Figura 7. Respuestas individuales a la pregunta: ¿Qué tan correcta fue la respuesta? 21 vi Índice de cuadros Tabla 1. Descripciones asistentes inteligentes por voz ................................................... 8 Tabla 2. Respuesta Asistentes a la pregunta: ¿Quién es el presidente de Canadá? ..... 9 Tabla 3. Preguntas de la evaluación en español e inglés ............................................. 13 Tabla 4. Escala Likert para evaluar los asistentes ........................................................ 14 Tabla 5. Ejemplo evaluación de los asistentes .............................................................. 14 Tabla 6. Distribución de los participantes en la evaluación ........................................... 18 Tabla 7. Resumen de los resultados para cada asistente ............................................. 22 vii Resumen En los últimos años, los asistentes inteligentes por voz han tomado gran importancia y popularidad basados en la capacidad que tienen de ayudar a los usuarios con tareas cotidianas como crear alarmas, enviar correo, entre muchas funcionalidades. Esta investigación realiza una comparación de los asistentes inteligentes con base en la calidad y correctitud de las respuestas proporcionadas al momento de ejecutar diferentes tareas. Noventa y dos estudiantes de diferentes carreras de la Universidad de Costa Rica participaron en la evaluación que determinó cual asistente ofrecía mayor satisfacción al usuario. Los resultados revelaron que Google Assistant y Alexa tienen el mejor rendimiento, seguidos de Cortana y Siri. Esta investigación fue publicada en la Conferencia Internacional en Computación Ubicua e Inteligencia Ambiental (UCAmI 2019). El artículo se puede ver en el anexo 1. viii 1 Capítulo 1 Introducción Con el avance de la tecnología, el uso de asistentes por voz se ha visto en aumento [1], particularmente en los últimos años con la aparición de una nueva generación de asistentes inteligentes potenciados por voz, liderados por Siri de Apple, Cortana de Microsoft, Alexa de Amazon y Google Assistant. Una de las razones para el mayor uso de los asistentes por voz, son las mejoras en la precisión del reconocimiento automático de voz [2]. A pesar de la importancia que han tomado los asistentes, evaluar estos dispositivos es un reto debido a la variedad y gran cantidad de tareas admitidas, por ejemplo, comando de voz, búsqueda web, chat, entre otras [3]. Por este motivo, es posible encontrar estudios en los que solamente se evalúa un dispositivo con base en las tareas soportadas [4], en otros casos, los estudios se basan en la comparación de estas tareas entre los mismos dispositivos [5,6]. En los últimos años, los estudios han mostrado la importancia de empezar a evaluar los asistentes inteligentes por voz tomando en consideración la satisfacción de los usuarios con las respuestas que reciben y la importancia de obtener una respuesta natural de parte de los asistentes inteligentes por voz [2]. Es decir, no solo evaluar la capacidad de los asistentes para ejecutar una tarea, sino la forma en la cual ejecuta la misma, entiéndase como la capacidad de comunicar apropiadamente una respuesta por parte de los asistentes [7]. Dada la popularidad que tienen los asistentes inteligentes por voz, existen estudios que evalúan y comparan los asistentes [2,7,8], pero no hay estudios que tomen en consideración la satisfacción del usuario con base en la calidad de la respuesta que está recibiendo de los asistentes, sino que se limitan a evaluar los asistentes desde las funcionalidades que estos ofrecen. 2 Otro detalle que es importante mencionar, es que la mayoría de las evaluaciones para conocer la satisfacción de los usuarios con los asistentes es realizada por las mismas compañías, por lo tanto, no son objetivas al momento de evaluar los asistentes, además que no hacen comparaciones con otros asistentes inteligentes por voz que existen en el mercado. Con respecto a lo anterior, podemos agregar que las empresas que fabrican los asistentes inteligentes por voz habilitan plataformas de desarrollo para incluir nuevas funcionalidades a los asistentes, por lo que es importante que los desarrolladores de software cuenten con estudios imparciales que evalúen la experiencia de usuario, con base en la calidad de la respuesta de los dispositivos, lo cual les permita priorizar la mejora y desarrollo de nuevas funcionalidades. 1.1 Objetivos A continuación, se detallan los objetivos de la presente investigación. 1.1.2 Objetivo General El objetivo general de esta investigación es evaluar la satisfacción de los usuarios con base en las respuestas de los asistentes inteligentes por voz. 1.1.3 Objetivos específicos Los objetivos específicos de la investigación son los siguientes: 1. Identificar los principales asistentes inteligentes por voz. 2. Crear un instrumento para evaluar las respuestas de los asistentes con el fin de medir la satisfacción de los usuarios. 3. Evaluar los asistentes inteligentes por voz. 3 Seguidamente, el capítulo 2 presenta un estado del arte que da evidencia de las revisiones de literatura efectuadas, en el capítulo 3 se describe un marco conceptual con los términos relevantes para este trabajo. Por su parte, en el capítulo 4 se explica la metodología que se utilizó para llevar a cabo la investigación, mientras que en el capítulo 5 se presentan los resultados de la evaluación. Por último, el capítulo 6 presenta las conclusiones y posibles trabajos futuros. 4 Capítulo 2 Estado del Arte Se realizó una revisión de literatura acerca de las técnicas existentes para evaluar los asistentes inteligentes por voz. La evaluación estuvo enfocada en investigaciones que evaluaran aspectos como la calidad de las respuestas y la satisfacción de los usuarios con las mismas. 2.1 Trabajo Relacionado Existen diferentes formas en las cuales se pueden evaluar los asistentes por voz, inclusive los desarrolladores de estos ofrecen un mecanismo de evaluación que consiste en un checklist para evaluar la funcionalidad es de los mismos. Pero estos mecanismos, más que medir qué tan satisfechos están los usuarios con los asistentes, miden la capacidad de los asistentes para ejecutar ciertas tareas. Por ejemplo: Amazon ofrece una guía para evaluar a Alexa en donde una de las tareas es crear una notificación [9]. Claramente esto permite evaluar la capacidad de Alexa para ejecutar la tarea, pero no la satisfacción del usuario. Muchos de los trabajos que resaltan en la literatura están enfocados en la evaluación de un solo asistente y las tareas que éste puede realizar, desde búsquedas, configuración de notificaciones, entre otras tareas [1,10]. Al mismo tiempo, Por otro lado, en [4] se señalan los desafíos que pueden enfrentar los usuarios con los asistentes, por ejemplo, que en ocasiones el usuario debe de repetir el comando que se usó o que se pueden presentar problemas de integración con otros dispositivos, entre otros desafíos. Otro ejemplo de artículos que evalúan los asistentes es “Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants” [5], en el cual no solo se hace una evaluación de las tareas que estos ofrecen, sino que se desarrollan temas como la 5 privacidad y los problemas de seguridad que los asistentes enfrentan con la información de los usuarios. En el tema de evaluación de los asistentes por voz, podemos mencionar el trabajo realizado por un grupo de investigadores de Microsoft [2] que trató de automatizar la evaluación de los asistentes y también predecir la calidad del reconocimiento por voz. La mayor parte del trabajo se centra en crear un modelo que permita evaluar las tareas soportadas sin necesidad de que una persona física lo realice, y la satisfacción es evaluada en términos de la capacidad del asistente para entender la tarea asignada. También existen estudios que no solo se enfocan en evaluar las capacidades de los asistentes y han empezado a tomar en cuenta, como parte de la evaluación, las experiencias afectivas de los usuarios con los asistentes [11], es decir, las emociones humanas como parte de la evaluación. Algunos de estos estudios señalan las emociones como parte importante de la experiencia de usuario [12]. Uno de los enfoques que es importante mencionar, es el de los autores Gustavo López, Luis Guerrero y Luis Quesada [13]. Ellos plantearon un estudio en el cual evaluaron las respuestas de los asistentes con base en la exactitud y naturalidad de las respuestas de los dispositivos, lo cual no solo se preocupa de evaluar las tareas que los asistentes realizan, sino que toma en consideración experiencia del usuario. Nuestro estudio a diferencia de los anteriores, los participantes evalúan las respuestas de los asistentes en base a la calidad y correctitud y sin tomar en consideración la interacción de los usuarios con los dispositivos. Ya que lo que se busca es identificar cual asistente inteligente por voz ofrece más satisfacción a los usuarios al ejecutar una tarea. 6 Capítulo 3 Marco Conceptual Para comprender en su totalidad la idea principal de este trabajo final de investigación aplicada (TFIA), es necesario explicar los conceptos más importantes. Una interfaz natural (Natural User Interface (NUI), su nombre en inglés) una forma más natural para que las personas interactúen con la tecnología. NUI se refiere tanto a las entradas sensoriales como el tacto, el habla y los gestos [19]. Un asistente inteligente por voz es un servicio de software que está junto a un dispositivo de hardware especializado, como un altavoz inteligente o simplemente una función que se ofrece en un dispositivo informático de uso general, como una computadora personal, tableta, teléfono inteligente o computadora portátil (como un reloj de pulsera digital), el cual ofrece un conjunto de habilidades de un asistente humano tradicional, que responde preguntas y realiza tareas utilizando el procesamiento de voz y lenguaje natural respaldado por inteligencia artificial [9]. Los agentes inteligentes por voz tienen como propósito realizar tareas o servicios por medio de la interacción con el usuario, gracias a la capacidad de acceder a información de una variedad de fuentes en línea. En la Tabla 1 se describen los asistentes inteligentes utilizados en esta evaluación: 7 Tabla 1. Descripciones asistentes inteligentes por voz Asistente Descripción Alexa Alexa es el servicio por voz ubicado en la nube de Amazon, disponible en los dispositivos de Amazon y dispositivos terciarios con Alexa integrada. Alexa puede controlar varios dispositivos inteligentes que sean compatibles con su sistema operativo como altavoces, televisores, electrodomésticos entre otros dispositivos. Google Assistant Es un asistente virtual desarrollado por Google que se puede encontrar en diferentes dispositivos y teléfonos Android y iOS. Al igual que Alexa se puede programar para controlar dispositivos inteligentes o conectarse con dispositivos externos para aumentar la capacidad de los asistentes. Cortana Cortana es un asistente personal inteligente desarrollado por Microsoft que puede ser usado en diversos dispositivos compatibles con el sistema operativo Windows 10. Tiene la capacidad de controlar otros dispositivos inteligentes, aunque es un espectro más limitado que Alexa y Google Assistant. Siri Siri es un asistente inteligente personalizado para para iOS, macOS, tvOS y watchOS. Posee la capacidad de conectarse con otros dispositivos que sean compatible con el sistema operativo de Apple. En esta investigación se evalúan los asistentes inteligentes por voz en 2 dimensiones: una objetiva que mide la correctitud de la respuesta (es decir, si es 8 objetivamente precisa) y una subjetiva que mide su calidad (tal como la percibe la persona que recibe la respuesta del dispositivo). Por ejemplo, para la pregunta: ¿Quién es el presidente de Canadá? Se obtuvieron las siguientes respuestas de Alexa y Google Assistant que se pueden observar en la Tabla 2 Tabla 2. Respuesta Asistentes a la pregunta: ¿Quién es el presidente de Canadá? Alexa Google Assistant Canadá no tiene presidente, pero el Justin Trudeau. Aquí hay un resumen primer ministro es Justin Trudeau. del sitio web: Wikipedia.org. El actual ministro de Canadá es el líder del partido liberal… Al observar las respuestas de la Tabla 2 se puede notar que la respuesta correcta es proporcionada por Alexa, ya que la pregunta es ¿Quién es el presidente de Canadá? y Canadá no tiene presidente sino Primer Ministro, por el otro lado la respuesta de Google no es correcta a la pregunta, pero si nos da una respuesta que puede ser percibida con mayor calidad, ya que me da más detalles y no simplemente un nombre. 9 Capítulo 4 Metodología Esta sección describe la metodología utilizada para alcanzar cada uno de los objetivos planteados. La Figura 1 muestra los objetivos, método y actividades realizadas. Figura 1.Metodología Para cumplir con el primer objetivo específico, se realizó una revisión de literatura que consistió en las siguientes actividades: 10 • Diseño de la revisión 1. Definición de las preguntas de investigación. o ¿Cuáles son los dispositivos más usados en el mercado? o ¿Cómo son evaluados los asistentes inteligentes por voz? 2. Definición del proceso de búsqueda: esto incluye la selección de los criterios de selección y calidad de los estudios, además de la definición de los datos a extraer. o Motores de búsqueda. o Año de publicación de los estudios. • Ejecución de la revisión y análisis de resultados En esta etapa se procedió a ejecutar la revisión de literatura con el fin de identificar cuáles son los dispositivos inteligentes más usados. La información se recolectó de diferentes bibliotecas digitales (Springer y ACM). Los artículos tomados en consideración están ubicados entre el año 2003 y el año 2019. Para cumplir con el objetivo número dos: Crear un instrumento para evaluar las respuestas de los asistentes con el fin de medir la satisfacción de los usuarios, se realizaron las siguientes actividades: • Selección de escenarios Después de la selección de los asistentes, se procedió a la selección de los escenarios que los participantes deberán evaluar. La selección de los escenarios se hizo en conjunto con un grupo de expertos en HCI. Un escenario en este contexto se define como una tarea en la que una persona estaría interesada en que 11 el asistente lo ayude. Esta definición es intencionalmente flexible para adaptarse a una amplia gama de tareas. • Selección del método de evaluación Los dispositivos serán evaluados con base en la calidad y correctitud de las respuestas que ofrezcan a cada uno de los escenarios definidos previamente. • Evaluación exploratoria (Piloto) Se realizó una evaluación con 10 personas a las que se les proporcionó un escenario y solicitó interactuar con el asistente para que este les brindara una respuesta. Un ejemplo de la orientación proporcionada a los participantes del piloto fue: "Imagina que quieres hacer una suma". Cada participante hizo preguntas al asistente de maneras ligeramente diferentes, algunos preguntaron "¿Cuánto es la suma de tres más 4?", Mientras que otros preguntaron "3 más 4" Estas interacciones permitieron la recopilación de las preguntas en inglés, ya que el escenario se proporcionó en español. El objetivo era comprender cómo interactuaban naturalmente los participantes con los asistentes inteligentes en cada escenario, con la mínima orientación. • Diseñar un modelo de evaluación Después de obtener los resultados del piloto, se creó un modelo de evaluación que funcionara para todos los dispositivos y que no permitiera que uno estuviera en ventaja sobre otro. En esta etapa se definieron las preguntas en inglés para evaluar las respuestas de los asistentes inteligentes por voz. La Tabla 3 muestra las preguntas utilizadas en español e inglés. 12 Tabla 3. Preguntas de la evaluación en español e inglés Pregunta en inglés Pregunta en español How does a dog sound? ¿Cómo suena un perro? Thirteen plus seventeen Trece más diecisiete What is the speed of the light? ¿Cuál es la velocidad de la luz? Where does Keylor Navas play? ¿Dónde juega Keylor Navas? Which team won the soccer world ¿Qué equipo ganó el mundial de fútbol cup of Italy 90? de Italia 90? I want to play a game Quiero jugar un juego How many US dollars are 10000 ¿Cuántos dólares estadounidenses son Costa Rican colons? 10000 colones costarricenses? Who is Canada's president? ¿Quién es el presidente de Canadá? What is the chemical formula for ¿Cuál es la fórmula química del agua? water? Set the alarm to six o'clock AM Configure la alarma a las seis en punto de la mañana Las preguntas seleccionadas a pesar de ser sencillas permiten evaluar a los asistentes en diferentes escenarios como ciencias, matemáticas, actividades cotidianas y la interacción directa con el dispositivo. En esta etapa se creó el instrumento de evaluación basado en dos preguntas para evaluar la calidad y correctitud de las respuestas: • ¿Qué tan buenas fueron las respuestas? (How good were the answers?) • ¿Qué tan correctas fueron las respuestas? (How correct were the answers?) Los participantes evaluaron los asistentes con base en una escala Likert de 5 puntos, la cual se explica en la Tabla 4. Un punto clave de esta investigación es que la evaluación de los asistentes se hizo en el idioma inglés, ya que muestran mejores resultados versus otros idiomas 13 como el español en el cual los asistentes inteligentes por voz no tienen el entrenamiento suficiente. La Tabla 5 muestra un ejemplo de la evaluación realizada. Tabla 4.Escala Likert para evaluar los asistentes Categoría Valor Excelente 5 Por encima del promedio 4 Promedio 3 Pobre 2 Muy pobre 1 Tabla 5. Ejemplo evaluación de los asistentes Preguntas Google Alexa Siri Cortana Assistant ¿Qué tan buenas fueron las respuestas? ¿Qué tan correctas fueron las respuestas? • Implementación del instrumento El instrumento de evaluación es el mecanismo por el cual los participantes evalúan los asistentes. Dado que el objetivo de este trabajo es evaluar la satisfacción de los participantes con los asistentes, se creó un video para poder incluir un mayor 14 número de participantes, el video presentaba el escenario a evaluar y la respuesta de cada uno de los asistentes. • Ejecución de la evaluación La evaluación de los asistentes fue llevada a cabo con 92 estudiantes universitarios, divididos en 5 grupos. Estos eran estudiantes activos de la Universidad de Costa Rica y tenían entre 18 y 26 años al momento del estudio. En el Anexo 2 se encuentra la evaluación completa. • Análisis de Datos Cada respuesta se consideró individualmente (¿Qué tan buenas fueron las respuestas? Y ¿Cuán correctas fueron las respuestas?) Y luego se agruparon. Para agrupar los resultados, se agregaron los diez puntajes de un solo participante. Esto proporciona un puntaje agregado con un valor mínimo de 10 y un máximo de 50 por participante. Se realizaron pruebas de normalidad y los datos no mostraron una distribución normal. Se utilizo la prueba del Shapiro Wilk para probar la hipótesis nula de si los datos son normales, utilizando un valor de significancia de “0.05”. El valor p fue menor a “0.05” para todas las preguntas en ambos escenarios de correctitud y calidad. Por lo que se rechaza la hipótesis nula de que los datos son normales. Los gráficos cuantil cuantil están en concordancia con los resultados del Shapiro Wilk, pueden observarse en la Figura 2 y 3. La no normalidad de los datos impide el uso de una prueba paramétrica ANOVA para comparar las medias. Por lo tanto, se utilizó la prueba de Kruskal Wallis, que es un equivalente no paramétrico de las pruebas de ANOVA que no requieren que los datos se distribuyan normalmente. El valor p de las pruebas Kruscal Wallis en todos los casos fue menor al valor de significancia de 0.05 por lo cual se rechaza la hipótesis nula de que los datos vienen de la misma distribución y se acepta la hipótesis alternativa que son diferentes. 15 Figura 2. Resultados de la prueba de Shapiro Wilk para la normalidad: ¿Qué tan correctas fueron las respuestas? Figura 3. Resultados de la prueba de Shapiro Wilk para la normalidad: ¿Qué tan buenas fueron las respuestas? 16 Para categorizar cualitativamente, los valores de los resultados se dividieron en cinco categorías: "excelente", "superior al promedio", "promedio", "inferior al promedio" y "pobre". Dado que los valores pueden tener un rango de 10 a 50, este rango fue dividido en cinco segmentos iguales. Por lo tanto, cada uno de ellos abarca ocho unidades, por ejemplo: el rango "muy pobre" incluye todas las respuestas entre 10 y 18, mientras que el "excelente" incluye aquellas entre 42 y 50. En el anexo 3 se muestran los valores p para la prueba Shapiro Wilk y Kruskal Wallis. 17 Capítulo 5 Resultados Esta sección describe los resultados de la evaluación con 92 participantes. Es interesante mencionar que el 99% de los participantes eran conscientes de la existencia de varios asistentes, pero solo el 86% había utilizado al menos uno de ellos. La distribución de los participantes de la encuesta se explica en la Tabla 6. Tabla 6. Distribución de los participantes en la evaluación Tipo de Distribución Edad Conoce los Ha utilizado participante participantes promedio asistentes algún asistente inteligentes por inteligente por voz voz Mujer 24% 23 100% 84% Hombre 76% 22 98% 91% La Figura 4 muestra para cada uno de los asistentes el resultado obtenido al evaluar: "¿Qué tan buenas fueron las respuestas?"; los dos mejores por un amplio margen, son Alexa y Google Assistant. Este último es el mejor, superando a Alexa en aproximadamente un 12% en la categoría excelente. La Figura 5 muestra una comparación de la suma de las respuestas de los participantes que separan a cada asistente para contrastar según "¿Qué tan correctas fueron las respuestas?". La superioridad de Google Assistant y Alexa también es evidente en esta figura. 18 Figura 4. Resultados de la pregunta "¿Qué tan buenas fueron las respuestas?" Figura 5. Resultados de la pregunta “¿Qué tan correctas fueron las respuestas?" 19 Ninguno de los participantes consideró que las respuestas de Siri fueron excelentes. Solo el 16% las consideró por encima del promedio, mientras que el 37% las consideró promedio, el 42% por debajo del promedio y el 4% muy pobres. En el caso de Cortana, solo el 8% de los evaluadores considera que sus respuestas fueron excelentes, pero el 54% las consideró por encima del promedio y el 18% promedio. En general, la distribución de respuestas para Siri está más sesgada hacia resultados negativos que la de Cortana. Se puede concluir que el desempeño de Siri es el peor de los cuatro asistentes seguido de Cortana, mientras tanto Google Assistant y Alexa son mejores que ellos. La Figura 7 muestra para cada uno de los asistentes el resultado obtenido al evaluar: "¿Qué tan buenas fueron las respuestas?", Google y Alexa tienen un desempeño similar en esta pregunta. Alexa cuenta con una ligera ventaja del 4% en la categoría excelente, mientras que Google Assistant tiene 5% más en la categoría: por encima del promedio. Dado que la mediana y el IQR de Alexa y Google están bastante cerca (45 y 4 para Google Assistant y 44 y 5.25 para Alexa) no hay evidencia estadística de que sean significativamente diferentes. La Figura 6 muestra una comparación de la suma de las respuestas de los participantes por asistente según: "¿Qué tan correctas fueron las respuestas?”. 20 Figura 6. Respuestas individuales a la pregunta: ¿Qué tan buena fue la respuesta? Figura 7. Respuestas individuales a la pregunta: ¿Qué tan correcta fue la respuesta? 21 En el caso de Siri, al evaluar si las respuestas son correctas, su desempeño es muy pobre ya que el 43% de los participantes considera que las respuestas están por debajo del promedio (respuestas incorrectas). Este es el peor desempeño entre los cuatro asistentes. En el caso de Cortana, el 71% considera que las respuestas estaban por encima del promedio y el 18% las considera como promedio. En el caso de Siri y Cortana, los números son considerablemente bajos teniendo en cuenta que estos asistentes se utilizan para ayudar a las personas en sus actividades diarias o para resolver problemas cotidianos, lo más importante es garantizar que proporcionen una buena comunicación y respuestas correctas. La Tabla 7 resume los resultados. Para cada asistente se calculó la mediana de cada pregunta y el valor resultante se discretizó con la misma lógica que los valores individuales. Google Assistant y Alexa son los mejores, tanto en calidad como en corrección. Cortana se ubica por debajo de ambos y Siri tiene el peor desempeño de los cuatro asistentes. Siri y Cortana en algunos casos no brindan una respuesta a las preguntas, y cuando lo hacen no siempre es correcta o de calidad. Tabla 7. Resumen de los resultados para cada asistente Asistente Calidad Correctitud inteligente Google Assistant Excelente Excelente Alexa Excelente Excelente Cortana Por encima del promedio Por encima del promedio Siri Promedio Promedio Aunque no hay evidencia estadística para confirmar que Google es mejor que Alexa, en los resultados se puede observar que en la pregunta "¿Qué tan buenas fueron las respuestas?", los resultados de Google son ligeramente mejores. Esto 22 puede estar relacionado con los resultados obtenidos de varios estudios: la voz femenina del Asistente de Google tiende a ser más natural y expresar más emociones que los otros asistentes [13, 1]. 23 Capítulo 6 Conclusiones y Trabajo futuro En esta investigación, se realizó la evaluación de cuatro asistentes personales inteligentes para identificar al mejor asistente en función de qué tan buenas y correctas fueron sus respuestas. El estudio incluyó a los asistentes personales más populares del mercado: Siri, Cortana, Alexa y Google Assistant; además, 92 participantes realizaron el estudio. Los resultados muestran que Alexa y Google son significativamente mejores que Siri y Cortana. No existe una diferencia significativa para confirmar que Alexa es mejor que el Asistente de Google o viceversa. Es interesante observar que, para ambos asistentes, las evaluaciones proporcionadas son muy positivas o muy negativas, con muy pocos evaluadores que les otorgan una calificación regular. Por otro lado, Cortana y Siri muestran el peor desempeño, siendo el último el que produce los resultados más bajos. Es interesante que Siri siendo uno de los asistentes de voz más populares en el mercado, ya que está en el iPhone [1], tenga un rendimiento tan bajo en comparación con los otros tres asistentes. La mayoría de los evaluadores clasificaron las respuestas de Cortana como "superiores al promedio", lo que resulta interesante porque para Alexa y Google los evaluadores tendieron a calificarlas como "excelentes". Un aspecto clave para este proyecto fue aplicar los conocimientos sobre revisiones de literatura aprendidos en diferentes cursos de la maestría, de esa manera se pudo conocer el estado del arte y tener una visión clara de lo que existía y lo que debíamos de aportar para que este estudio fuera relevante 24 De igual manera el desarrollo de este proyecto me permitió ampliar mi conocimiento sobre instrumentos de evaluación y cómo utilizarlos de manera idónea para conseguir los resultados deseados. Aunque nuestros resultados son prometedores, se deben realizar estudios o réplicas similares en diferentes contextos para reunir más evidencia empírica sobre el uso de los asistentes personales inteligentes, sería interesante expandir esta investigación explorando otro tipo de asistentes personales inteligentes, por ejemplo, las pulseras inteligentes. Otra área de trabajo futuro a explorar sería cómo mejorar la calidad de las respuestas que proporcionaron los asistentes. Existe también oportunidad de realizar nuevos estudios que evalúen también que le falta a Cortana para que sus respuestas sean excelentes, tal como las del Asistente de Google y Alexa, porque a pesar de tener un buen rendimiento, sus respuestas no son consideradas "excelentes" por los participantes. Se necesitan más estudios para evaluar la interacción del usuario con los asistentes personales inteligentes y comprender mejor cómo la interacción puede afectar los resultados obtenidos. Además, podríamos incluir una población diversa que pueda fortalecer los resultados, por ejemplo, adultos mayores o niños que puedan ayudar a entender la interacción de estos grupos con los asistentes. 25 Referencias [1] Aron, J. (2011). How innovative is Apple's new voice assistant, Siri?. [2] Jiang, J., Hassan Awadallah, A., Jones, R., Ozertem, U., Zitouni, I., Gurunath Kulkarni, R., & Khan, O. Z. (2015). Automatic online evaluation of intelligent assistants. In Proceedings of the 24th International Conference on World Wide Web (pp. 506-516). [3] van Beurden, M. H., Ijsselsteijn, W. A., & de Kort, Y. A. (2011). User experience of gesture-based interfaces: a comparison with traditional interaction methods on pragmatic and hedonic qualities. In International Gesture Workshop (pp. 36-47). Springer, Berlin, Heidelberg. [4] Myers, K., Berry, P., Blythe, J., Conley, K., Gervasio, M., McGuinness, D. L., & Tambe, M. (2007). An intelligent personal assistant for task and time management. AI Magazine, 28(2), 47-47. [5] Hoy, M. B. (2018). Alexa, siri, cortana, and more: An introduction to voice assistants. Medical reference services quarterly, 37(1), 81-88. [6] López, G., Quesada, L., & Guerrero, L. A. (2017). Alexa vs. Siri vs. Cortana vs. Google Assistant: a comparison of speech-based natural user interfaces. In International Conference on Applied Human Factors and Ergonomics (pp. 241-250). Springer, Cham. [7] Derrick, B., & White, P. (2017). Comparing two samples from an individual Likert question. International Journal of Mathematics and Statistics, 18(3). [8] Microsoft Corporation. [Online]. Available: https://www.microsoft.com/en- us/mobile/experiences/cortana/. [Accessed: 10- Jan-2019]. [9] Siri Support [Online]. Available: http://www.apple.com/ios/siri/. [Accessed: 10- Jan- 2018]. [10] Google Assistant Support.” [Online]. Available: https://assistant.google.com/. [Accessed: 10- Jan-2019]. [11] Kepuska, V., & Bohouta, G. (2018). Next generation of virtual personal assistants (microsoft cortana, apple siri, amazon alexa and google home). In 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC) (pp. 99- 103). IEEE. [12] Canbek, N. G., & Mutlu, M. E. (2016). On the track of artificial intelligence: Learning with intelligent personal assistants. Journal of Human Sciences, 13(1), 592-601. 26 [13] Alexa skills kit.” [Online]. Available: https://developer.amazon.com/public/solutions/alexa/alexa-skills-kit. [Accessed: 10- Jan-2019]. [14] Yang, X., Aurisicchio, M., & Baxter, W. (2019). Understanding Affective Experiences with Conversational Agents. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (pp. 1-12). [15] Forlizzi, J., & Battarbee, K. (2004). Understanding experience in interactive systems. In Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques (pp. 261-268). [16] Pyae, A., & Joelsson, T. N. (2018). Investigating the usability and user experiences of voice user interface: a case of Google home smart speaker. In Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct (pp. 127-131). [17] Cohen, P., Cheyer, A., Horvitz, E., El Kaliouby, R., & Whittaker, S. (2016). On the future of personal assistants. In Proceedings of the 2016 CHI conference extended abstracts on human factors in computing systems (pp. 1032-1037). [18] “Amazon has finally revealed how many Alexa devices have been sold” [Online]. Available: https://www.businessinsider.com/amazon-reveals-alexa-sales-2019-1. [Accessed: 10- Jan-2019]. [19] Kaushik, D., & Jain, R. (2014). Natural user interfaces: Trend in virtual interaction. arXiv preprint arXiv:1405.0101. 27 Anexo 1. Artículo Publicado Este anexo incluye el texto completo del artículo presentado en ‘13th International Conference on Ubiquitous Computing and Ambient Intelligence UCAmI 2019, Toledo, Spain, 2–5 December 2019.” 28 Proceedings User Experience Comparison of Intelligent Personal Assistants: Alexa, Google Assistant, Siri and Cortana † Ana Berdasco, Gustavo López, Ignacio Diaz, Luis Quesada and Luis A. Guerrero University of Costa Rica; ana.berdasco@ucr.ac.cr, gustavo.lopez_h@ucr.ac.cr (G.L.); ignacio.diaz@ucr.ac.cr (I.D.); luis.quesada@ecci.ucr.ac.cr (L.Q.); luis.guerrero@ecci.ucr.ac.cr (L.A.G.) * Correspondence: ana.berdasco@ucr.ac.cr; Tel.: +506-8334-3683 † Presented at the 13th International Conference on Ubiquitous Computing and Ambient Intelligence UCAmI 2019, Toledo, Spain, 2–5 December 2019. Abstract: Natural user interfaces are becoming popular. One of the most common natural user interfaces nowadays are voice activated interfaces, particularly smart personal assistants such as Google Assistant, Alexa, Cortana, and Siri. This paper presents the results of an evaluation of these four smart personal assistants in two dimensions: the correctness of their answers and how natural the responses feel to users. Ninety-two participants conducted the evaluation. Results show that Alexa and Google Assistant are significantly better than Siri and Cortana. However, there is no statistically significant difference between Alexa and Google Assistant. Keywords: intelligent personal assistant; natural user interfaces; user experience; Google Home; Amazon Alexa; Apple Siri; Microsoft Cortana 1. Introduction A natural user interface (NUI) is a system for human–computer interaction that the user operates through intuitive “invisible” actions. The goal of these interfaces is to hide the complexity of the system even if the user is experienced or the interactions are complex. Examples of the actions commonly utilized by NUI include touch and gestures. In more recent years, a new generation of voice-powered personal assistants has become common and widespread. These assistants were pioneered and commoditized by Apple when they introduced Siri in the iPhone in 2011 [1]. Even though intelligent personal assistants are now mainstream, evaluating these assistants represent a challenge due to the large variety and number of tasks they support. For example, the assistants found on the average smartphone supports a wide range of tasks, such as voice commands, web search, chat, and several others [2]. Due to the number of tasks that use voice commands, studies that attempt to measure the effectiveness of these assistants or compare them tend to focus on a small number of assistants and are targeted to a narrow field of usage scenarios in which authors perform measurements by themselves (for example, assistance during their day-to-day e-mail writing) [3]. This paper makes a comparison of four intelligent personal assistants (i.e., Google Assistant, Amazon Alexa, Apple Siri, and Microsoft Cortana) that have been developed to aid people in managing time commitments and performing tasks [4]. All assistants are compared based on the same aspects and services. This paper focuses on voice-activated intelligent personal assistants deployed in smartphones, smart speakers, or personal computers. All these assistants can be found on widespread devices such as Android or Apple phones as well as in Microsoft Windows [5–8]. The evaluation was conducted by 92 university undergraduate students of several different majors. Each participant evaluated all four personal assistants in two dimensions: how good were the answers, where good means how natural the responses feel to users, and how correct were the answers, where correct means free from error; in accordance with fact or truth. 29 The motivation of this study is to evaluate these assistants with many users, not just the personal experience of a single person. Another motivation for this study is to conduct an unbiased analysis. This is especially important because most comparisons or evaluations of personal assistants are conducted by the same companies that developed the assistants. The rest of the work is structured as follows. Section 2 summarizes relevant previous works in the area. Section 3 describes the methodology and instruments used in this research. Section 4 presents the results and discussion of the research. Finally, Section 5 presents the conclusions and outlines future work. 2. Related Work There are different ways in which personal assistants can be evaluated by voice; in some cases, the creators of the assistants offer an evaluation mechanism. However, rather than measuring how satisfied the users are with the assistants, they measure the capacity they have to perform specific tasks. For example, Amazon offers an evaluation guide for Alexa, where one of the tasks is to create a notification [8]. This allows evaluating the ability of Alexa to execute the task, but not the satisfaction of the user. Many of the works that stand out in the literature are focused on the evaluation of a single assistant and the tasks that it can perform from searches and configuration notifications, among other tasks. At the same time, they point out the challenges that users may face with attendees, for example, that sometimes the user must repeat the command that was used or that integration problems with other devices may arise, among other challenges [9]. A group of researchers of the Department of Future Technologies, University of Turku, Finland, investigated the usability, user experiences, and usefulness of the Google Home smart speaker. The findings showed that Google Home is usable and user-friendly for the user [9], but the study did not include other assistants like Alexa or Cortana. The paper “Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants” is an example, which not only makes an evaluation of the tasks that the assistants offer, like sending emails and messages, among others, but also includes topics such as privacy and the problems of security that the assistants face to handle the information of the users [10]. Another study was carried out by a group of researchers from Microsoft [2] that tried to automate the evaluation of the attendees and predict the quality of voice recognition. Most of the work is in creating a model that allows evaluating the tasks supported without needing a physical person to do it, and the satisfaction is evaluated in terms of the capacity of the assistant to understand the assigned task. On the other hand, there are also studies that not only focus on evaluating the skills of the assistants but have begun to take into account as part of the evaluation the affective experiences of the users with the assistants [11]. Yang found that the affective responses differed depending on the scenario; for example, some factors that underlie the quality are the comfort in the conversation between the machine and the man, the pride of using cutting-edge technology, the fun during use, the perception of having a human person, privacy, and the fear of distraction One approach worth mentioning is that of the authors Lopez, Quesada and Guerrero [12]. They proposed a study in which they evaluated the answers of the assistants based on the accuracy and naturalness of the answers of the devices. This maintains the focus of evaluating the tasks that the assistants perform but also consider the quality of the user–assistant interaction. Our work is partially based on this paper, which served as a reference for the evaluation of intelligent personal assistants. 3. Methodology 3.1. Evaluation Design The first part of the study was the identification of the voice assistants that would be evaluated by the participants, which was achieved through a literature review. The selected assistants were Siri, Alexa, Cortana, and Google Assistant [10]. 30 After the assistants were identified, the next step was to select the scenarios that would be evaluated. A scenario in this context is defined as a task in which a person would want the assistant’s help. This definition is intentionally loose to accommodate a wide range of tasks. Examples include a person requesting assistance on how to navigate from their current location to another, simple mathematical questions, and “general knowledge” questions. The scenarios were selected with the collaboration of a group of four HCI (human computer interaction)experts, all professors at the University of Costa Rica (UCR), and it was based on previous research [12]. The evaluation was performed in two dimensions: an objective one that measures the correctness of the answer (i.e., whether it is factually accurate) and a subjective one that measures its quality (as perceived by the person interacting with the device). The next stage was to perform an unscripted pilot, which was performed by a group of 10 participants with varied backgrounds, such as economics, computer engineering, biology, and others. The goal was to understand how they naturally interacted with the personal assistants on each scenario, with minimal guidance. They were provided only with a vague scenario, and they were asked to request the assistant to help them solve it. Interactions enabled the gathering of questions naturally asked by people to the assistants when attempting to solve the scenarios. An example of the guidance provided to the members of the pilot is: “Imagine that you want to make a sum”. Each participant asked questions to the assistant in slightly different ways, such as one of them asking “How much is the sum of three plus four” while others asked “three plus four”. As part of the results of this pilot, it was identified that depending on how the question is posed, it may or may not be understood by the assistants. Therefore, a question that was understood by all the assistants had to be selected for each scenario that was going to be evaluated. This was done to guarantee that the performance of all the assistants was measured under fair and equal circumstances, in which they all understood the question being asked. After the pilot, a video was recorded with one person asking each assistant a set of requests. Only one person participated in this recording to assure that each assistant answered the same question with the same tone and accent. Each answer was recorded, and these recordings were presented to the participants during the evaluation. In the video, the questions were presented sequentially. Each question was presented followed by the answer provided by each one of the assistants. To guarantee the comprehension of the viewers, both the questions and the answers included the audio in English as well as a transcript (English and Spanish). Figure 1 shows an example of the presentation format. The following questions were used: 1. How does a dog sound? 2. Thirteen plus seventeen. 3. What is the speed of the light? 4. Where does Keylor Navas play? 5. Which team won the soccer world cup of Italy 90? 6. I want to play a game. 7. How many US dollars are 10,000 Costa Rican colons? 8. Who is Canada’s president? 9. What is the chemical formula for water? 10. Set the alarm to six o’clock AM. 3.2. Evaluation Execution The video was presented to 92 university students, divided into five groups. These were active students from the University of Costa Rica and were aged between 18 and 26 years old at the time of the study. All participants evaluated the quality and the correctness of the answers provided by each one of the intelligent personal assistants by responding the following two questions: “How good were the answers?” and “How correct were the answers?”. Before the video was 31 was explained. On average, each group evaluation lasted 20 min. Table 1 shows an example of the questions used by the participants to evaluate the assistants. All participants responded using a 5-point Likert scale for goodness and correctness of the response. The scale was: (1) very poor, (2) poor, (3) average, (4) above average, and (5) excellent. Table 1. Example of the questions for evaluating the assistants. Question Google Assistant Alexa Siri Cortana How good were the answers? How correct were the answers? Figure 1. Examples of the video showed to participants. 3.3. Data Analysis Each answer was considered individually (“How good were the answers?” and “How correct were the answers?”) and then grouped. To group the results, the ten scores from a single participant were added. This provides an aggregated score with a minimum value of 10 and a maximum of 50 per participant. Normality tests were conducted, and the data did not show a normal distribution. Figure 2 shows the distributions of the tests. (a) (b) Figure 2. Results of the Shapiro–Wilk test for normality. (a) Results for the responses of “How correct was the answer?” and (b) results for the responses of “How good was the answer?”. The non-normality of the data prevented the use of a parametric ANOVA test to compare the means. Therefore, the Kruskal–Wallis tests, which is a non-parametric equivalent of the ANOVA tests that do not require the data to be normally distributed, was used. To qualitatively categorize the results, values were discretized into five categories: “excellent”, “above average”, “average”, “below average”, and “poor”. Since the values can 32 For example, the “very poor” range includes all answers between 10 and 18, while the “excellent” one includes those between 42 and 50. 4. Results and Discussion This section describes the results of the evaluation with 92 participants. It is interesting to mention that 99% of the participants were aware of the existence of the various assistants, but only 86% had used at least one of them. The results show no differences between the preferences of women and men. Figure 3 shows for each of the assistants the result obtained to evaluate “How good were the answers?”. The best two, by a wide margin, are Alexa and Google Assistant. The latter is the best one, beating Alexa by approximately 12% in the excellent category. Figure 4 shows a comparison of the sum of the responses of the participants separating each assistant to compare based on “How correct were the answers?”. The superiority of both Google Assistant and Alexa is also apparent in this figure. Figure 3. Results for the question “How good were the answers?”. Figure 4. Results for the question “How correct were the answers?”. None of the participants considered that the answers of Siri were excellent. Only 16% considered them above average while 37% of them considered them average, 42% below average, and 4% very poor. In the case of Cortana, only 8% of the evaluators consider that their answers were excellent, but 54% of them considered them above average and 18% average. Overall, the distribution 33 performance of Siri is the worst out of the four assistants, followed by Cortana and that both Google Assistant and Alexa are better than them. Figure 5 shows for each of the assistants the result obtained to evaluate: “How good were the answers?”. Google and Alexa have a similar performance in this question, with Alexa having a slight edge of 4% in the excellent category while Google Assistant has 5% more in the above average one. Given that the median and the IQR of Alexa and Google are quite close (45 and 4 for Google Assistant and 44 and 5.25 for Alexa) there is no statistical evidence that they are significantly different. Figure 6 shows a comparison of the sum of the responses of the participants by assistant based on “How correct were the answers?”. Figure 5. Individual responses to the question “How good was the answer?”. Figure 6. Individual responses to the question “How correct was the answer?”. In the case of Siri, when evaluating if the answers were correct, its performance was poor since 43% of the participants consider that the answers are below average (incorrect answers). This is the worst performance among the four assistants. In the case of Cortana, 71% consider that the answers were above average, and 18% regard them as average. In the case of Siri and Cortana the numbers are considerably low, considering that these assistants are used to help people in their daily activities or to solve everyday problems, and the most important thing is to ensure that they provide good communication and correct answers. Table 2 summarizes the results. For each assistant, the median of each question was calculated, and the resulting value was discretized with the same logic as the individual values. Google Assistant and Alexa are the best in both quality and correctness. Cortana ranks below both and Siri has the 34 worst performance of all four assistants. Siri and Cortana in some cases do not provide an answer to the questions, and when they do provide it is not always correct or of quality. In the case of Siri and Cortana, the numbers are considerably low, considering that these assistants are used to help people in their daily activities or to solve everyday problems, and the most important thing is to ensure that they provide good communication and correct answers. Although there is no statistical evidence to confirm that Google is better than Alexa, in the results it can be noted that for the question “How good were the answers?” Google results are slightly better. This may be related to the fact obtained by many results of several studies: The female voice of Google Assistant tends to be more natural and express more emotions than the other assistants [1,13]. Table 2. Summary of the results for each assistant. Personal Assistants Quality Correctness Google Assistant Excellent Excellent Alexa Excellent Excellent Cortana Above average Above average Siri Average Average 5. Conclusions and Future Work This paper described the results of an evaluation of four intelligent personal assistants, to identify the best assistant based on how good and correct their answers were. The study included the most popular personal assistants on the market: Siri, Cortana, Alexa, and Google Assistant. A total of 92 participants conducted the study. Results show that Alexa and Google are significantly better than Siri and Cortana. There is no statistically significant difference to confirm that Alexa is better than Google Assistant or vice versa. It is interesting to note that for both assistants, the evaluations provided are either very positive or very negative, with very few evaluators giving them a regular score. On the other hand, Cortana and Siri show the worst performance, the last being the one that produces the lowest results. It is interesting that Siri, being one of the most popular voice assistants in the market since it is in the iPhone [1], has such a low performance when compared with the other three assistants. Cortana’s answers were ranked by most evaluators as “above average”, which proves interesting in that for Alexa and Google the evaluators tended to score them as “excellent”. Although our results are promising, similar studies or replications should be conducted in different contexts, to gather more empirical evidence on the use of intelligent personal assistants. It would be interesting to expand this research in the future by exploring other types of intelligent personal assistants. Another interesting area of future work is how to improve the quality of the answers that the assistants provided. There is an opportunity to conduct new studies on evaluating why Cortana’s answers are not as excellent as those of Google Assistant and Alexa, because despite having a good performance, its answers were not considered “excellent” by the participants. Further studies are needed to evaluate the interaction of the user with intelligent personal assistants and gain a better understanding of how the interaction can affect the obtained results. In addition, we could include diverse populations, which can strengthen the results. Author Contributions: Conceptualization, G.L., L.Q. and A.B.; methodology, G.L., L.A.G., A.B.; data curation, A.B.; writing—original draft preparation, A.B.; writing—review and editing, G.L. I.D., L.Q.; supervision, L.A.G. and G.L. Acknowledgments: This work was partially supported by the Centro de Investigaciones en Tecnologías de la Información y Comunicación (CITIC) and Escuela de Ciencias de la Computación e Informática (ECCI), both at Universidad de Costa Rica (Grant No. 834-B6-178). An acknowledgment also to all the survey respondents. Conflicts of Interest: The authors declare no conflict of interest References 35 1. Aron, J. How innovative is Apple’s new voice assistant, Siri? NewScientist 2011, 212, 24, doi:10.1016/S0262- 4079(11)62647-X. 2. Jiang, J.; Hassan Awadallah, A.; Jones, R.; Ozertem, U.; Zitouni, I.; Gurunath Kulkarni, R.; Khan, O.Z. Automatic online evaluation of intelligent assistants. In Proceedings of the 24th International Conference on World Wide Web, 18–22 May 2015; International World Wide Web Conferences Steering Committee: Geneva, Switzerland, 2015; pp. 506–516. 3. Van Beurden, M.H.; Ijsselsteijn, W.A.; de Kort, Y.A. User experience of gesture-based interfaces: A comparison with traditional interaction methods on pragmatic and hedonic qualities. In International Gesture Workshop; Springer: Berlin/Heidelberg, Germany, 2011; pp. 36–47. 4. Myers, K.; Berry, P.; Blythe, J.; Conley, K.; Magazine, M.G.-A. An Intelligent Personal Assistant for Task and Time Management; López, G., Quesada, L., Guerrero, L.A., Eds.; Alexa vs. Siri vs. Cortana vs. Google Assistant: A Comparison of Speech-Based Natural User Interfaces; Springer: Cham, Switzerland, 2018, pp. 241–250. 5. Microsoft. Cortana. 21 May 2019. Available online: https://www.microsoft.com/windows/cortana/ (accessed on 28 October 2019). 6. Apple Inc. Siri. 21 May 2019. Available online: http://www.apple.com/ios/siri/ (accessed on 28 October 2019). 7. Google Inc. 21 May 2019. https://google.com/landing/now/ (accessed on 28 October 2019). 8. Amazon Inc. 21 May 2019 from Alexa Skills Kit. Available online: https://developer.amazon.com/public/solutions/alexa/alexa-skills-kit (accessed on 28 October 2019). 9. Pyae, A.; Joelsson, T.N. Investigating the usability and user experiences of voice user interface: A case of Google home smart speaker. In Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct; ACM: New York, NY, USA, 2018; pp. 127–131. 10. Hoy, M.B. Alexa, siri, cortana, and more: An introduction to voice assistants. Med. Ref. Serv. Q. 2018, 37, 81– 88. 11. Yang, X.; Aurisicchio, M.; Baxter, W. Understanding Affective Experiences With Conversational Agents. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems; ACM: New York, NY, USA, 2019. 12. López, G.; Quesada, L.; Guerrero, L.A. Alexa vs. Siri vs. Cortana vs. Google Assistant: A Comparison of Speech- Based Natural User Interfaces; Springer: Cham, Switzerland, 2017. 13. Canbek, N.G.; Mutlu, M.E. On the track of artificial intelligence: Learning with intelligent personal assistants. J. Hum. Sci. 2016, 13, 592–601. © 2019 by the authors. Submitted for possible open access publication under the terms and conditions of the Creative Commons Attribution (CC BY) license (http://creativecommons.org/licenses/by/4.0/). 36 Anexo 2. Encuesta utilizada para la evaluación de los asistentes inteligentes por voz. Google Preguntas / Dispositivos Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 1 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 2 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 3 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 4 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 5 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 6 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana 37 P1- ¿Qué tan buenas fueron las respuestas? 7 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 8 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 9 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? Google Home Alexa Siri Cortana P1- ¿Qué tan buenas fueron las respuestas? 10 How good were the answers? P2 - ¿Qué tan correctas fueron las respuestas? How accurate were the answers? 38 Encuesta Demográfica *Obligatorio 1. Género * Mujer Hombre 2. Edad *: __________ 3. Carrera (Profesión) *: _______________________________ 4. ¿Cómo define su nivel de inglés (conversacional)? * Principiante Intermedio básico Intermedio Intermedio Avanzado Avanzado 5. ¿Conoce algún asistente por voz (Siri, Cortana, Alexa, Google Home)? * Si No 6. ¿Ha usado alguno de los siguientes asistentes por voz? * Google Home Cortana Alexa Siri 39 Anexo 3. Encuesta utilizada para la evaluación de los asistentes inteligentes por voz. Pregunta Tipo shapiro.wilk.p.valor kruskal.p.valor Pregunta 1 Correcto 1.80E-27 1.99E-43 Pregunta 2 Correcto 1.23E-26 2.42E-36 Pregunta 3 Correcto 9.67E-33 0.103051 Pregunta 4 Correcto 3.96E-26 5.32E-39 Pregunta 5 Correcto 7.97E-26 3.70E-31 Pregunta 6 Correcto 1.00E-18 1.54E-25 Pregunta 7 Correcto 4.46E-21 1.16E-49 Pregunta 8 Correcto 4.86E-30 0.001731 Pregunta 9 Correcto 1.06E-26 6.09E-18 Pregunta 10 Correcto 4.49E-21 3.02E-32 Pregunta 1 Bueno 3.69E-25 3.45E-24 Pregunta 2 Bueno 4.73E-24 2.23E-26 Pregunta 3 Bueno 5.88E-26 1.02E-04 Pregunta 4 Bueno 2.42E-22 4.94E-28 Pregunta 5 Bueno 4.79E-20 3.19E-21 Pregunta 6 Bueno 4.70E-18 2.94E-23 Pregunta 7 Bueno 2.03E-19 7.24E-37 Pregunta 8 Bueno 1.18E-23 2.35E-10 Pregunta 9 Bueno 1.35E-22 6.89E-11 Pregunta 10 Bueno 2.50E-19 2.73E-23 40