¿Cómo evaluar aplicaciones de diálogo
hablado en un Centro de Contacto?
Fernando Farfán, Heriberto Cuayahuitl
y Alberto Portilla
Los sistemas de IVR o VRU actualmente manejan una cantidad
importante del tráfico de entrada en los Centros
de Conracto, ya que es la tecnología que generalmente
recibe las llamadas de "In Bound". Por otra parte, las
aplicaciones que utilizan diálogo hablado están
empezando a emerger en nuestro país (Speech-IVR),
en reemplazo o para atender tareas diferentes a las
que tradicionalmente atendían los IVR con marcado
de tonos (IVR-DTMF), por ejemplo, "Si desea asistencia
marque 1. Si desea algún otro servicio marque
2."). En razón de lo anterior, aquí mostramos
una forma de evaluar los resultados de un sistema de
diálogo hablado, situación que dada la
"riqueza" de interacción que se genera con estos
sistemas, apunta hacia la creencia de que sólo
puede haber una evaluación subjetiva.
Los Sistemas de Diálogo Hablado
Aunque este tipo de sistemas, ya son conocidos, repasemos
rápidamente de qué se tratan. Un Sistema
de Diálogo Hablado nos permite hacer uso del
"habla humana" para interactuar con la computadora.
Una clasificación de los sistemas de interacción
es mostrado en la figura 1.; ahí se puede observar
que los SDH, abarcan tareas más complejas, y
conforme aumenta la complejidad del diálogo y
la entrada de información ya sea hablada o mediante
dígitos, se asemejan más al operador humano.

Figura 1. Clasificación de los Sistemas de Interacción
por teléfono.
El uso de los sistemas Speech-IVR tiene un mayor éxito
en la interacción con el usuario, en comparación
con los sistemas IVR-DTMF; esto se debe principalmente
a:
Las personas prefieren emplear el habla en vez de emplear
los tonos de marcado, ya que el habla es el medio de
comunicación más natural entre los humanos.
Una mayor gama de servicios pueden ser automatizados
mediante una interfaz de voz, ya que ésta permite
un mayor rango de entrada de información.
Las interfaces de voz reducen el tiempo de una llamada
debido a que en pocos pasos se puede obtener la información
deseada.
Las interfaces de voz pueden dar el soporte necesario
de ayuda al usuario mediante el empleo de comandos de
voz.
Las interfaces del habla permiten una mayor flexibilidad
en la navegación del sistema con opciones menos
complejas y más intuitivas que las opciones de
un menú jerárquico típico de los
sistemas IVR-DTMF.
Los sistemas Speech-IVR proveen una interfaz más
amigable y rápida para interactuar con el usuario.
Ahora bien, como es sabido, los resultados del Centrode
Contacto no sólo deben medirse en valores cualitativos
sino también cuantitativos; sin embargo, cabe
aclarar que en los SDH, el usuario tiende a enfocarse
en los aspectos cualitativos, ya que al establecerse
un "Diálogo Humano - Computadora" dirigido por
la "voz", el usuario antropomorfiza al IVR.
Las Métricas de Evaluación
La satisfacción del cliente en el uso de estos
SDH, es un factor que toda organización debe
cuidar, ya que es de esperarse que los sistemas que
no dan una buena solución a las necesidades del
cliente sean abandonados, lo cual llevará a una
pérdida tanto de tiempo como de dinero. Es por
ello que el conocimiento del desempeño de un
sistema nos permite tomar decisiones que guíen
a ofrecer un mejor servicio al cliente y a optimizar
nuestros recursos en el Centro de Contacto.
Para conocer la satisfacción del usuario en
el uso de un sistema de diálogo hablado es necesario
emplear una metodología que proporcione información
tanto de métricas objetivas (que permiten conocer
aspectos cualitativos del sistema) como de métricas
subjetivas (las cuales muestran una apreciación
del sistema desde el punto de vista del usuario). En
el caso de estudio que se detalla posteriormente, se
aplica la metodología propuesta por Marilyn Walker,
denominada "PARADISE", la cual es considerada una de
las metodologías más sofisticadas en cuanto
a la evaluación de sistemas de diálogo
hablado. Esta metodología contempla un análisis
de los datos que se obtienen en cada llamada que realiza
un usuario y se complementa en la aplicación
de un cuestionario aplicado a éste; de esta forma
se puede determinar la satisfacción del usuario
mediante una evaluación objetiva y subjetiva
del sistema. El cuestionario aplicado a los usuarios
se detalla a continuación y es una traducción
del empleado en PARADISE.
¿Obtuvo la información y finalizó
su tarea con éxito? (Éxito en el logro
de las tareas.)
¿Pudo entender con claridad los mensajes que
le dijo el sistema? (Calidad del sintetizador de voz.)
¿El sistema entendió lo que usted decía?
(Calidad del sistema de reconocimiento de voz.)
¿Fue fácil encontrar el mensaje que buscaba?
(Facilidad de tarea.)
El ritmo con el que se condujo la interacción
entre usted y el sistema ¿fue apropiada? (Ritmo
de interacción del sistema con el usuario.)
¿Supo qué debería decir durante
la conversación con el sistema? (Conocimiento
del usuario.)
¿Fueron retardadas las respuestas del sistema?
(Tiempo de respuesta del sistema.)
¿El sistema trabajo de la manera que usted esperaba?
(Comportamiento esperado.)
¿Cree que este tipo de sistema es mejor que los
sistemas basados en tonos de marcado? (Desempeño
del diálogo dirigido contra las interfaces basadas
en tonos de marcado.)
Basándose en la reciente experiencia que tuvo
con el sistema, ¿lo volvería a usar regularmente
como un medio alterno para la consulta de su cuenta
de correo? (Uso futuro del sistema.)
Las respuestas a las preguntas deben ser definidas
en criterios de opción múltiple, por ejemplo,
un margen del 1 al 5; algunas respuestas de opción
múltiple pueden ser: "casi nunca", "rara vez",
"algunas veces", "a menudo" y "casi siempre", mientras
que otras preguntas son con respuestas como "sí",
"no" y "tal vez".
Dentro de las métricas objetivas se contemplan
las métricas de eficiencia, las cuales representan
la información concerniente a la agilidad con
la que el usuario llevó a cabo sus tareas mediante
el uso del sistema, mientras que las métricas
cualitativas se relacionan de manera directa con la
forma, estilo o percepción con la que se llevó
la interacción. La Tabla 1 muestra los parámetros
involucrados en una evaluación del sistema.
Métricas de eficiencia
Tiempo de conversación La duración total
en segundos de la interacción entre el usuario
y el sistema.
Turnos del sistema Número de veces que el sistema
reprodujo un mensaje al usuario.
Turnos del usuario Número de veces que el usuario
se dirigió al sistema para darle alguna instrucción.
Métricas cualitativas
Puntuación del reconocedor Puntuación
obtenida en el reconocimiento correcto de las palabras
o frases pronunciadas por el usuario.
Tiempos fuera Número de veces que el usuario
no dijo alguna palabra o frase en un tiempo determinado.
Rechazos Número de veces que la palabra o frase
del usuario no fue reconocida en el contexto de la aplicación.
Ayuda Número de veces que el sistema solicitó
ayuda.
Cancelaciones Número de veces que el sistema
canceló alguna operación.
Interrupciones Número de veces que el usuario
interrumpió al sistema mientras éste reproducía
algún mensaje.
Métricas de éxito de tareas
Éxito Éxito del usuario en el logro de
sus tareas
Criterios aplicados al cuestionario del usuario
Calidad del sintetizador Claridad de los mensajes reproducidos
por el sistema mediante el empleo del sintetizador del
habla.
Calidad del reconocedor Capacidad del reconocimiento
correcto de las palabras o frases del usuario al dirigirse
al sistema.
Facilidad de tarea Grado de complejidad en el logro
de una tarea mediante el uso del sistema.
Ritmo de interacción Rapidez o lentitud con que
se llevó a cabo la interacción.
Conocimiento del usuario Conocimiento de las palabras
o frases que el usuario debería pronunciar en
cada parte de interacción con el sistema.
Tiempo de respuesta Tiempo en segundos en que el sistema
respondía al usuario después de alguna
operación o solicitud.
Comportamiento esperado Comportamiento predecible y
esperado por parte del sistema.
Comparación con sistemas IVR-DTMF Comparación
de los sistemas de diálogo hablado con los sistemas
basados en tono de marcado.
Uso futuro Uso futuro del sistema.

Tabla 1. Descripción de las métricas
evaluativas de un sistema propuesta en PARADISE
Un caso de estudio
En esta sección se muestran los resultados de
aplicar las métricas anteriormente descritas
en un sistema de "E-mail Telefónico", comandado
totalmente por voz y guiado mediante un diálogo
dirigido. Un diagrama que representa al sistema en un
nivel alto es mostrado en la figura 2.
Figura 2. Representación del sistema mediante
un diagrama de estados.
Para la realización del experimento se contó
con la ayuda de estudiantes universitarios pertenecientes
a la carrera de ingeniería y con una edad promedio
de 21 años. Estos usuarios sólo cuentan
con experiencia en la consulta de correo electrónico
mediante una interfaz gráfica como la de Hotmail
o a través de la herramienta "pine" de UNIX;
sin embargo, carecen de experiencia interactuando con
sistemas vía telefonica. A cada una de estas
personas se les asignaron tres tareas a efectuar en
la consulta a su correo electrónico por teléfono.
En cada una de estas tareas se plantearon dos objetivos
específicos, haciendo una excepción en
una tarea que sólo tiene un objetivo específico.
Estas tareas fueron realizadas de manera contigua y
son descritas a continuación:
Tarea Descripción Objetivo
1 Armando Rocha ha preparado una reunión, por
lo que el pidió que le llamara a su teléfono
celular. Obtener el número telefónico
de Armando Rocha.
2 Alberto Morales le ha invitado a su boda. Obtener
el día y la hora de la boda, y eliminar el mensaje.
3 Fernando Mata Terrazas le ha enviado un mensaje acerca
de una junta el próximo viernes y pide que confirme
su asistencia. Obtener lugar y hora de la reunión,
y confirmar su asistencia.
Tabla 1. Tareas asignadas a los usuarios.
Los resultados de aplicar la metodología de
evaluación PARADISE a nuestro sistema de correo
electrónico por teléfono es mostrada en
la figura 2.
Métricas Resultados
Métricas de eficiencia
Turnos del sistema 34.80
Turnos del usuario 14.42
Tiempo de la llamada 6.10 (370.20 segundos )
Métricas cualitativas
Puntuación del ASR 0.85
Tiempos fuera 4.3
Reintentos 3.40
Ayuda 1.3
Cancelaciones 0.2
Interrupciones 1.1
Éxito de tareas
Éxito 0.83
Resultados de la aplicación del cuestionario
Calidad en TTS 3.9 Algo fácil
Calidad en ASR 4.2 A menudo
Facilidad de tarea 4.1 Algo fácil
Ritmo de interacción 3.0 Algunas veces la interacción
fue rápida
Conocimiento del usuario 4.2 A menudo
Respuesta del sistema 4.4 Rara vez
Comportamiento esperado 3.8 Sí
Uso futuro 4.4 Sí
Satisfacción del usuario 32.69
Figura 2. Tabla de desempeño del sistema de
correo electrónico por teléfono.
En nuestro sistema, los turnos de éste fueron
mayores a los del usuario debido la naturaleza del diálogo
dirigido, y el tiempo de la llamada fue razonable al
contemplar que los usuarios realizaron tres tareas de
manera continua en la misma llamada. Por otra parte,
el reconocedor tuvo una muy buena puntuación
en cuanto a reconocimiento del habla, ya que las cancelaciones
y los rechazos fueron pocos por cada llamada que se
hizo. De igual forma, cabe considerar que los tiempos
fuera son altos (4.3 por llamada); esto se debe a la
secuencia del sistema al presentar los encabezados de
los mensajes en orden de lista cronológico. Es
importante anotar que estos valores fueron obtenidos
sin realizar ningún "Fine Tunning" en el "Engine"
del reconocedor del habla. El éxito en el logro
de tareas fue aceptable (0.83), lo cual nos indica que
el sistema tiene una buena usación para el desempeño
de tareas del usuario. Finalmente, en el cuestionario
aplicado a los usuarios del sistema se puede apreciar
que estos catalogaron como bueno al sistema en general,
pues la puntuación no llegó a ser menor
de 3, lo cual se considera bajo en alguno de los aspectos
denotados en el cuestionario.
Generalmente, el aplicar una metodología de
evaluación en una prueba piloto de usación,
ayuda a corregir errores en la interfaz de usuario y
a incrementar la facilidad de uso del sistema. Sin embargo,
deseamos resaltar la importancia de aplicar este tipo
de "pruebas" como parte misma del desarrollo de cualquier
aplicación dirigida con habla, ya que mediante
esta evaluación se podrán determinar los
factores que sea necesario mejorar para ofrecer mayor
calidad en los servicios al cliente. También
es importante anotar que los factores de costo y tiempo
relacionados con aplicar estas metodologías deben
ser considerados durante la fase de especificaciòn
del proyecto, para evitar el rechazo en la organización
al aplicarlas, con la seguridad de que los resultados
de las mismas serán de gran utilidad en todos
los niveles y harán más exitoso el proyecto.
*Fernando Farfán, Heriberto Cuayahuitl y Alberto
Portilla
{farfan, hcuaya,aportilla}@ ingenieria.uatx.mx
Laboratorio de Tecnologías del Habla
Universidad Autónoma de Tlaxcala
|