Telemarketing   Portal Contact Forum
inicio
   
 

¿Cómo evaluar aplicaciones de diálogo hablado en un Centro de Contacto?


Fernando Farfán, Heriberto Cuayahuitl y Alberto Portilla


Los sistemas de IVR o VRU actualmente manejan una cantidad importante del tráfico de entrada en los Centros de Conracto, ya que es la tecnología que generalmente recibe las llamadas de "In Bound". Por otra parte, las aplicaciones que utilizan diálogo hablado están empezando a emerger en nuestro país (Speech-IVR), en reemplazo o para atender tareas diferentes a las que tradicionalmente atendían los IVR con marcado de tonos (IVR-DTMF), por ejemplo, "Si desea asistencia marque 1. Si desea algún otro servicio marque 2."). En razón de lo anterior, aquí mostramos una forma de evaluar los resultados de un sistema de diálogo hablado, situación que dada la "riqueza" de interacción que se genera con estos sistemas, apunta hacia la creencia de que sólo puede haber una evaluación subjetiva.

Los Sistemas de Diálogo Hablado

Aunque este tipo de sistemas, ya son conocidos, repasemos rápidamente de qué se tratan. Un Sistema de Diálogo Hablado nos permite hacer uso del "habla humana" para interactuar con la computadora. Una clasificación de los sistemas de interacción es mostrado en la figura 1.; ahí se puede observar que los SDH, abarcan tareas más complejas, y conforme aumenta la complejidad del diálogo y la entrada de información ya sea hablada o mediante dígitos, se asemejan más al operador humano.

 

Figura 1. Clasificación de los Sistemas de Interacción por teléfono.

El uso de los sistemas Speech-IVR tiene un mayor éxito en la interacción con el usuario, en comparación con los sistemas IVR-DTMF; esto se debe principalmente a:

Las personas prefieren emplear el habla en vez de emplear los tonos de marcado, ya que el habla es el medio de comunicación más natural entre los humanos.
Una mayor gama de servicios pueden ser automatizados mediante una interfaz de voz, ya que ésta permite un mayor rango de entrada de información.
Las interfaces de voz reducen el tiempo de una llamada debido a que en pocos pasos se puede obtener la información deseada.
Las interfaces de voz pueden dar el soporte necesario de ayuda al usuario mediante el empleo de comandos de voz.
Las interfaces del habla permiten una mayor flexibilidad en la navegación del sistema con opciones menos complejas y más intuitivas que las opciones de un menú jerárquico típico de los sistemas IVR-DTMF.
Los sistemas Speech-IVR proveen una interfaz más amigable y rápida para interactuar con el usuario.

Ahora bien, como es sabido, los resultados del Centrode Contacto no sólo deben medirse en valores cualitativos sino también cuantitativos; sin embargo, cabe aclarar que en los SDH, el usuario tiende a enfocarse en los aspectos cualitativos, ya que al establecerse un "Diálogo Humano - Computadora" dirigido por la "voz", el usuario antropomorfiza al IVR.

Las Métricas de Evaluación

La satisfacción del cliente en el uso de estos SDH, es un factor que toda organización debe cuidar, ya que es de esperarse que los sistemas que no dan una buena solución a las necesidades del cliente sean abandonados, lo cual llevará a una pérdida tanto de tiempo como de dinero. Es por ello que el conocimiento del desempeño de un sistema nos permite tomar decisiones que guíen a ofrecer un mejor servicio al cliente y a optimizar nuestros recursos en el Centro de Contacto.

Para conocer la satisfacción del usuario en el uso de un sistema de diálogo hablado es necesario emplear una metodología que proporcione información tanto de métricas objetivas (que permiten conocer aspectos cualitativos del sistema) como de métricas subjetivas (las cuales muestran una apreciación del sistema desde el punto de vista del usuario). En el caso de estudio que se detalla posteriormente, se aplica la metodología propuesta por Marilyn Walker, denominada "PARADISE", la cual es considerada una de las metodologías más sofisticadas en cuanto a la evaluación de sistemas de diálogo hablado. Esta metodología contempla un análisis de los datos que se obtienen en cada llamada que realiza un usuario y se complementa en la aplicación de un cuestionario aplicado a éste; de esta forma se puede determinar la satisfacción del usuario mediante una evaluación objetiva y subjetiva del sistema. El cuestionario aplicado a los usuarios se detalla a continuación y es una traducción del empleado en PARADISE.

¿Obtuvo la información y finalizó su tarea con éxito? (Éxito en el logro de las tareas.)
¿Pudo entender con claridad los mensajes que le dijo el sistema? (Calidad del sintetizador de voz.)
¿El sistema entendió lo que usted decía? (Calidad del sistema de reconocimiento de voz.)
¿Fue fácil encontrar el mensaje que buscaba? (Facilidad de tarea.)
El ritmo con el que se condujo la interacción entre usted y el sistema ¿fue apropiada? (Ritmo de interacción del sistema con el usuario.)
¿Supo qué debería decir durante la conversación con el sistema? (Conocimiento del usuario.)
¿Fueron retardadas las respuestas del sistema? (Tiempo de respuesta del sistema.)
¿El sistema trabajo de la manera que usted esperaba? (Comportamiento esperado.)
¿Cree que este tipo de sistema es mejor que los sistemas basados en tonos de marcado? (Desempeño del diálogo dirigido contra las interfaces basadas en tonos de marcado.)
Basándose en la reciente experiencia que tuvo con el sistema, ¿lo volvería a usar regularmente como un medio alterno para la consulta de su cuenta de correo? (Uso futuro del sistema.)

Las respuestas a las preguntas deben ser definidas en criterios de opción múltiple, por ejemplo, un margen del 1 al 5; algunas respuestas de opción múltiple pueden ser: "casi nunca", "rara vez", "algunas veces", "a menudo" y "casi siempre", mientras que otras preguntas son con respuestas como "sí", "no" y "tal vez".

Dentro de las métricas objetivas se contemplan las métricas de eficiencia, las cuales representan la información concerniente a la agilidad con la que el usuario llevó a cabo sus tareas mediante el uso del sistema, mientras que las métricas cualitativas se relacionan de manera directa con la forma, estilo o percepción con la que se llevó la interacción. La Tabla 1 muestra los parámetros involucrados en una evaluación del sistema.

Métricas de eficiencia
Tiempo de conversación La duración total en segundos de la interacción entre el usuario y el sistema.
Turnos del sistema Número de veces que el sistema reprodujo un mensaje al usuario.
Turnos del usuario Número de veces que el usuario se dirigió al sistema para darle alguna instrucción.
Métricas cualitativas
Puntuación del reconocedor Puntuación obtenida en el reconocimiento correcto de las palabras o frases pronunciadas por el usuario.
Tiempos fuera Número de veces que el usuario no dijo alguna palabra o frase en un tiempo determinado.
Rechazos Número de veces que la palabra o frase del usuario no fue reconocida en el contexto de la aplicación.
Ayuda Número de veces que el sistema solicitó ayuda.
Cancelaciones Número de veces que el sistema canceló alguna operación.
Interrupciones Número de veces que el usuario interrumpió al sistema mientras éste reproducía algún mensaje.
Métricas de éxito de tareas
Éxito Éxito del usuario en el logro de sus tareas
Criterios aplicados al cuestionario del usuario
Calidad del sintetizador Claridad de los mensajes reproducidos por el sistema mediante el empleo del sintetizador del habla.
Calidad del reconocedor Capacidad del reconocimiento correcto de las palabras o frases del usuario al dirigirse al sistema.
Facilidad de tarea Grado de complejidad en el logro de una tarea mediante el uso del sistema.
Ritmo de interacción Rapidez o lentitud con que se llevó a cabo la interacción.
Conocimiento del usuario Conocimiento de las palabras o frases que el usuario debería pronunciar en cada parte de interacción con el sistema.
Tiempo de respuesta Tiempo en segundos en que el sistema respondía al usuario después de alguna operación o solicitud.
Comportamiento esperado Comportamiento predecible y esperado por parte del sistema.
Comparación con sistemas IVR-DTMF Comparación de los sistemas de diálogo hablado con los sistemas basados en tono de marcado.
Uso futuro Uso futuro del sistema.

Tabla 1. Descripción de las métricas evaluativas de un sistema propuesta en PARADISE

Un caso de estudio

En esta sección se muestran los resultados de aplicar las métricas anteriormente descritas en un sistema de "E-mail Telefónico", comandado totalmente por voz y guiado mediante un diálogo dirigido. Un diagrama que representa al sistema en un nivel alto es mostrado en la figura 2.


Figura 2. Representación del sistema mediante un diagrama de estados.

Para la realización del experimento se contó con la ayuda de estudiantes universitarios pertenecientes a la carrera de ingeniería y con una edad promedio de 21 años. Estos usuarios sólo cuentan con experiencia en la consulta de correo electrónico mediante una interfaz gráfica como la de Hotmail o a través de la herramienta "pine" de UNIX; sin embargo, carecen de experiencia interactuando con sistemas vía telefonica. A cada una de estas personas se les asignaron tres tareas a efectuar en la consulta a su correo electrónico por teléfono. En cada una de estas tareas se plantearon dos objetivos específicos, haciendo una excepción en una tarea que sólo tiene un objetivo específico. Estas tareas fueron realizadas de manera contigua y son descritas a continuación:

Tarea Descripción Objetivo
1 Armando Rocha ha preparado una reunión, por lo que el pidió que le llamara a su teléfono celular. Obtener el número telefónico de Armando Rocha.
2 Alberto Morales le ha invitado a su boda. Obtener el día y la hora de la boda, y eliminar el mensaje.
3 Fernando Mata Terrazas le ha enviado un mensaje acerca de una junta el próximo viernes y pide que confirme su asistencia. Obtener lugar y hora de la reunión, y confirmar su asistencia.

Tabla 1. Tareas asignadas a los usuarios.

Los resultados de aplicar la metodología de evaluación PARADISE a nuestro sistema de correo electrónico por teléfono es mostrada en la figura 2.


Métricas Resultados
Métricas de eficiencia
Turnos del sistema 34.80
Turnos del usuario 14.42
Tiempo de la llamada 6.10 (370.20 segundos )
Métricas cualitativas
Puntuación del ASR 0.85
Tiempos fuera 4.3
Reintentos 3.40
Ayuda 1.3
Cancelaciones 0.2
Interrupciones 1.1
Éxito de tareas
Éxito 0.83
Resultados de la aplicación del cuestionario
Calidad en TTS 3.9 Algo fácil
Calidad en ASR 4.2 A menudo
Facilidad de tarea 4.1 Algo fácil
Ritmo de interacción 3.0 Algunas veces la interacción fue rápida
Conocimiento del usuario 4.2 A menudo
Respuesta del sistema 4.4 Rara vez
Comportamiento esperado 3.8 Sí
Uso futuro 4.4 Sí
Satisfacción del usuario 32.69

Figura 2. Tabla de desempeño del sistema de correo electrónico por teléfono.

En nuestro sistema, los turnos de éste fueron mayores a los del usuario debido la naturaleza del diálogo dirigido, y el tiempo de la llamada fue razonable al contemplar que los usuarios realizaron tres tareas de manera continua en la misma llamada. Por otra parte, el reconocedor tuvo una muy buena puntuación en cuanto a reconocimiento del habla, ya que las cancelaciones y los rechazos fueron pocos por cada llamada que se hizo. De igual forma, cabe considerar que los tiempos fuera son altos (4.3 por llamada); esto se debe a la secuencia del sistema al presentar los encabezados de los mensajes en orden de lista cronológico. Es importante anotar que estos valores fueron obtenidos sin realizar ningún "Fine Tunning" en el "Engine" del reconocedor del habla. El éxito en el logro de tareas fue aceptable (0.83), lo cual nos indica que el sistema tiene una buena usación para el desempeño de tareas del usuario. Finalmente, en el cuestionario aplicado a los usuarios del sistema se puede apreciar que estos catalogaron como bueno al sistema en general, pues la puntuación no llegó a ser menor de 3, lo cual se considera bajo en alguno de los aspectos denotados en el cuestionario.

Generalmente, el aplicar una metodología de evaluación en una prueba piloto de usación, ayuda a corregir errores en la interfaz de usuario y a incrementar la facilidad de uso del sistema. Sin embargo, deseamos resaltar la importancia de aplicar este tipo de "pruebas" como parte misma del desarrollo de cualquier aplicación dirigida con habla, ya que mediante esta evaluación se podrán determinar los factores que sea necesario mejorar para ofrecer mayor calidad en los servicios al cliente. También es importante anotar que los factores de costo y tiempo relacionados con aplicar estas metodologías deben ser considerados durante la fase de especificaciòn del proyecto, para evitar el rechazo en la organización al aplicarlas, con la seguridad de que los resultados de las mismas serán de gran utilidad en todos los niveles y harán más exitoso el proyecto.


*Fernando Farfán, Heriberto Cuayahuitl y Alberto Portilla
{farfan, hcuaya,aportilla}@ ingenieria.uatx.mx
Laboratorio de Tecnologías del Habla
Universidad Autónoma de Tlaxcala

 
 
Ingles Mapa Politicas Web Design