Agrupamiento y predicción automática de retroalimentación de clientes: una aplicación para el servicio web Hulipractice
Archivos
Fecha
2021-07-06
Tipo
tesis de maestría
Autores
Fabián, Hernández Arrieta
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
Para toda compañı́a, el cliente siempre debe estar en el centro de su accionar. Para produc-
tos de software como HuliPractice, es de suma importancia incorporar la retroalimentación de
sus clientes como acciones de mejora. Esta retroalimentación responde a necesidades variadas
de muchos clientes, por lo que su procesamiento se puede convertir en una tarea tediosa y de-
mandante de tiempo. La minerı́a de texto ofrece una alternativa para procesar automáticamente
esta retroalimentación y, con ello, lograr reducir el tiempo de procesamiento. El presente trabajo
aplica y valida técnicas de minerı́a de texto para la agrupación y predicción automática de 1519
comentarios de clientes sobre el producto HuliPractice. Esta retroalimentación viene dada en
forma de comentarios, los cuales fueron captados por los equipos internos de la compañı́a Huli,
entre octubre de 2016 y setiembre de 2020.
Primeramente, se realiza un análisis descriptivo de la retroalimentación existente utilizando
las técnicas de nube de palabras y análisis de redes. Como resultado, se encuentra que las
necesidades de los clientes apuntan a funcionalidades como, el soporte a Google Calendar dentro
de la aplicación y la implementación de la facturación electrónica desde el celular.
En segunda instancia, se comparan dos técnicas no supervisadas para agrupar automáti-
camente esta retroalimentación: el modelo de k-medias y el modelo DBScan. Con el modelo
de k-medias, se obtienen los resultados de agrupación más homogéneos y completos. Las ca-
racterı́sticas de homogeneidad y completitud de los grupos obtenidos son sintetizados a través
del valor v. Entre más cercano este valor a 1, más completos y homogéneos son los grupos de
comentarios generados. El modelo de k-medias obtiene el valor v más alto con 0,367. El modelo
de DBScan obtiene un valor v de 0,30.
Finalmente, se comparan cuatro técnicas de análisis supervisado para clasificar automáti-
camente la retroalimentación de clientes: el modelo ingenuo de Bayes(NB), bosques aleato-
rios(RF), máquinas de soporte vectorial (SVM) y el modelo de potenciación de gradiente extre-
ma(XGBoost).
El modelo de SVM tiene los mejores resultados con una precisión media de 81,0 %. El modelo
XGBoost produjo segundos mejores resultados de precisión media con un 79,7 %. Los modelos
de NB y RF ocupan el tercer y cuarto lugar en cuanto a resultados obtenidos, con una precisión
media de 79,0 % y 77, 5 %, respectivamente.
La precisión media obtenida por el modelo SVM (81.0 %) concuerda con los resultados
reportados en proyectos similares de ingenierı́a de requerimientos basados en grupos. También,
la implementación de este proceso representarı́a hasta 20 horas de ahorro por mes en tareas
de clasificación de nuevos comentarios. Además, el uso del algoritmo k-medias para agrupar
comentarios no clasificados por el modelo supervisado, ahorrarı́a hasta 4 horas al mes a la
compañı́a. Por lo anterior, se concluye como satisfactorios los resultados de este trabajo según
los objetivos planteados.
Descripción
Palabras clave
CrowdRE, análisis de redes, nube de palabras, bolsa de palabras, TF- IDF, reducción de dimensión, chi-cuadrado, minerı́a de texto, análisis supervisado, árboles aleatorios, XGBoost, análisis no supervisado, k-medias, DBScan