You are on page 1of 4

Entorno para el aprendizaje automtico de estrategias de dilogo

Javier Gonzalvo Fructuoso Jose Antonio Morn Moreno Carlos Monzo Snchez Santi Planet Garca Departamento de Comunicaciones y Tratamiento de la seal Universidad de la Salle (URL) e-mail : {gonzalvo,moran,cmonzo,splanet}@salleurl.edu Abstract- This paper presents the design of spoken dialogue system strategies based on reinforcement learning. Many authors have recently proposed treating the dialogue system as a state sequence and the introduction of learning methods based on trial-anderror to find and optimal dialogue strategy has opened a new investigation area. This work proposes some ideas to deal with the probabilities of the simulated model, learning automatization and reinforce variables. All this issues have improved our learning model. I. INTRODUCCIN Debido a los avances en las ltimas dcadas en el campo de las tecnologas del habla en sistemas como reconocedores automticos del habla, sntesis y procesamiento natural del lenguaje, las interfaces de sistemas de dilogos hablados son cada vez en ms comunes e importantes. En este entorno el Departamento de Comunicaciones y Tratamiento de la seal de Enginyeria i Arquitectura La Salle lleva varios aos desarrollando un locutor Virtual [1]. Un interfaz hombre mquina que fusiona el procesamiento del habla con una parte grfica que genera un mensaje audiovisual a partir de un texto de entrada. Este trabajo tratar de proporcionar al locutor un sistema orientado a la comunicacin con el usuario mediante la gestin de los dilogos.
Locutor Virtual
ASR Nivel seal NLU Nivel intenciones Nivel palabras

Para llevar a cabo el aprendizaje se ha desarrollado un entorno a partir del cual el diseador puede adaptar cada sistema a sus necesidades. La aplicacin se ha creado con dos objetivos. Por un lado, independizar el sistema de aprendizaje respecto al contexto del dilogo. Por otro lado, facilitar y agilizar el diseo de los sistemas de dilogo.
Usuarios Simulados Aprendizaje Sistema de dilogo

Mundo exterior

Usuarios reales

Fig. 2. Entorno de aprendizaje de las estrategias de dilogo.

Existen diversas propuestas para el aprendizaje de estrategias de dilogo [2,3] que se basan en el anlisis de corpus prediseados. En este trabajo se ha optado por modelar un escenario simulado con los elementos ms comunes. Trabajar con un sistema simulado tiene varias ventajas. La primera es que permite evitar la complejidad y el tiempo de diseo de todo un corpus de dilogo. Por otro lado, el anlisis de un corpus sesga el resultado final a la estrategia que se sigui para disear ese corpus en particular. Por ltimo, disear el dilogo es una tarea a posteriori y en consecuencia no puede depender de un corpus. II. SISTEMA DE DILOGO Las sesiones de dilogo son un proceso secuencial entre dos interlocutores definido como un proceso de decisin de Markov en trminos de espacio de estados, espacio de acciones y refuerzo. El objetivo ser encontrar la estrategia ptima que minimice el refuerzo total en la sesiones de dilogo. Tanto las transiciones entre estados como el modelo del refuerzo por transicin estn probabilsticamente modeladas y se cumple la propiedad de Markov de primer orden. El proceso cambiar de estado de acuerdo nicamente con el estado en el que se encuentre en el instante t (st) y la accin tomada en ese mismo estado (at). El refuerzo en cada transicin (rt) tambin depende exclusivamente del estado y de la accin tomada en ese estado. (1) P(st +1 st , at , st 1 , at 1 ,K , s0 , a0 ) = P(st +1 st , at )

Usuarios

Gestor de dilogo

BBDD TTS NLU

Fig. 1. Estructura del sistema de dilogo propuesto.

El diseo automtico de las estrategias de dilogo presentado en este trabajo est inspirado en la propuesta de Levin y Pieraccini [2]. La idea principal es modelar los sistemas de dilogos como transiciones entre estados y tratarlo como un proceso de decisin de Markov. De esta forma, el diseo del dilogo se resume en optimizar los estados finitos mediante el aprendizaje reforzado y un escenario virtual.

P(rt s t , at , st 1 , at 1 ,K , s 0 , a 0 ) = P (rt st , at )

(2)

I. MODELIZACIN DEL ESCENARIO A. Formalizacin del dilogo La definicin del dilogo en los procesos de decisin de Markov necesita establecer las siguientes consideraciones. El espacio de estados describe el dilogo para cada instante de tiempo (st). sta informacin ha de ser descriptiva y linealmente independiente para cumplir la propiedad de Markov de primer orden. El espacio de acciones hace referencia a aquellas acciones que el sistema permite realizar a cada instante (at). stas dependen del nivel de detalle y suelen ser respuestas, preguntas o consultas a bases de datos. La funcin de refuerzo indica la bondad de la accin llevada a cabo para el conjunto de la sesin. El refuerzo total de un dilogo completo se puede expresar como la suma de todas las seales obtenidas en la sesin de dilogo hasta su finalizacin en Tf (ec. 3). La estrategia ptima debe minimizar el refuerzo total (ec. 4).
Rsd = rt
Tf

Nuestro modelo simulado continuar la idea inicialmente propuesta por [4,5] en la que se simulan diferentes componentes de un sistema de dilogo por separado.
ot
Modelo: ASR / NLP Modelo de usuario Objetivo Memoria

at

Agente st st+1

rt

Fig. 3. Modelo del sistema simulado para el aprendizaje.

(3) (4)

min (E [Rd ])

t =0

Entre los componentes ms importantes destacan el modelo del usuario, el comportamiento del reconocedor y del analizador del lenguaje natural. El modelo del usuario se basa en una aproximacin probabilstica de comportamiento [7] e incluye adems un objetivo fijo y una memoria de la sesin. El principal problema reside en proporcionar unas probabilidades concretas. A diferencia de otros modelos simulados [4,5,7], la propuesta de este trabajo est orientada al aprendizaje y no ha representar de manera exacta un escenario. Con este objetivo el aprendizaje no se sesga en conductas concretas sino que el sistema tiene un comportamiento genrico. En consecuencia, el comportamiento del usuario en relacin con los atributos tiene que ser equiprobable (por ejemplo, P(A)=1/N probabilidad de referirse a un atributo A donde N es el total de atributos). Por otro lado, se distinguen dos tipos de probabilidades que definen el comportamiento de la estrategia final. Las probabilidades que cumplen 0.5<P<1 se asocian a acciones que el sistema debe aprender (por ejemplo, que el usuario proporcione varios atributos como respuesta a una pregunta abierta del sistema). Por el contrario, las probabilidades dentro del margen 0<P<0.5 son aquellas que se asignan a situaciones que pueden suceder en el dilogo pero que el diseador no quiere que se reflejen a la estrategia final (por ejemplo, que el usuario proporcione un atributo por el que no se le ha preguntado). III. APRENDIZAJE AUTOMTICO A. Introduccin El aprendizaje automtico de las estrategias de dilogo se basa en la interaccin de un agente virtual inteligente con un entorno simulado (libre de modelo) en un nmero de sesiones determinado. Mediante prueba y error se realimenta un refuerzo al agente que le permite ponderar la bondad de las acciones que est tomando (fig 4a). El objetivo primordial es optimizar la funcin de refuerzo mediante la actualizacin del aprendizaje representado por la matriz Q (fig. 4b) formada por el par estado accin. Cada estado tiene asociadas varias acciones y una de ellas es la ms favorable [6].

B. Funcin de refuerzo El refuerzo obtenido en cada iteracin debe ser representativo de la informacin que el diseo tiene que optimizar. Se han realizado varias propuestas para esta funcin [4,5]. El principal problema es decidir qu caractersticas ponderar y qu importancia subjetiva se le asocia a cada una. El modelo propuesto en este trabajo pondera variables objetivas comunes en todos los dilogos como son la longitud y los errores cometidos.

Rd = N t Ei wi Ai Ei k i M i
t =0 i i

Tf

(5)

La ecuacin (5) incluye tres conceptos. El primer sumatorio hace referencia al refuerzo total que se obtiene por sesin. Los dos trminos siguientes controlan la finalizacin de la tarea. El segundo sumatorio controla las acciones no realizadas (ej. No realizar la confirmacin de los datos) y el ltimo controla los estados del dilogo con error (ej. no obtener la informacin de una variable). La principal caracterstica de esta funcin de refuerzo es que est dominada por la existencia del error (parmetro Ei). Su objetivo principal es distinguir entre estrategias errneas y poco ptimas. Por ello, la funcin de refuerzo debe distinguir los errores por encima de la peor longitud de la sesin E[NTf] y por lo tanto se propone considerar C >>
E[NTf].

1 i sin error Ei = C i con error

(6)

Los factores w y k ponderan la importancia de un error frente a otro. La propuesta de este trabajo fija estos factores en w,k1. Como veremos en el apartado III existen ciertos errores a los cuales se les suele asignar mayor importancia.

Q ( s , a ) = Q ( s , a ) + r + Q ( s ' , a ' ) Q ( s , a )
Estado(t+1)

(8)

Medio
si
Accin(t)

Agente
Refuerzo(t+1)

a0

a1

... aN

Fig. 4. (a) Entorno de aprendizaje (b) Q matriz de aprendizaje, relacin estado acciones.

El mayor problema del aprendizaje reforzado es encontrar el equilibrio entre exploracin (proceso de investigacin de todas las posibles soluciones para no caer en mnimos locales) y la explotacin (usar y fijar una conducta determinada del agente). B. Automatizacin del aprendizaje Para facilitar el aprendizaje es necesario automatizar el proceso a partir del cual el agente fija la conducta e inhibe la exploracin. La automatizacin depende de dos factores: el factor de aprendizaje () y la probabilidad de exploracin (). Para controlar la exploracin se propone hacer decrecer exponencialmente = e (b1Sesiones+b2 ) en el rango [0.1,0) [6]. A partir del 10% de su valor inicial 0.1, se considera que la exploracin deja paso a la explotacin. Se entiende por Sesiones el nmero de dilogo totales en los que se realiza el aprendizaje. La sesin a partir de la cul deseamos explotar la conducta aprendida la definimos como ep. Teniendo en cuenta los valores inicial y final de la exponencial podremos fijar el valor de las variables b1 y b2. Para garantizar la convergencia en entornos estacionarios se deben cumplir las condiciones de exploracin del aprendizaje reforzado [6]. Primero, tiene que existir suficiente exploracin para garantizar en el lmite que cada par estado accin se visite un nmero muy elevado de veces. Segundo, el factor de aprendizaje debe ser incremental. Estas dos condiciones se satisfacen siempre que 0<<1 y que k(s,a) decrezca a medida que aumenta el nmero de sesiones k. El mejor comportamiento se define en [6] como: k ( s, a ) = 1 k (7) C. Algoritmo Sarsa On-policy Sarsa es un mtodo de aprendizaje orientado al control de las acciones basado en diferencias temporales. Adems, es incremental porque actualiza el aprendizaje a cada instante de una misma sesin [6]. Los sistemas on-policy actualizan su matriz Q en base a la conducta y a la vez actualizan la misma conducta de acuerdo con el valor ms favorable de Q para el estado siguiente. Se cumple que el sistema Sarsa converge con probabilidad 1 a la conducta ptima siempre y cuando se cumplan las condiciones de exploracin. La actualizacin del aprendizaje se basa en la (ec. 9) donde se tiene en cuenta el factor de aprendizaje (), el refuerzo para la transicin actual (r) y la diferencia entre el aprendizaje actual Q(s,a) y el aprendizaje del siguiente estado elegido representado como Q(s,a).

Para mejorar el proceso de aprendizaje se ha aplicado las trazas elegibles que permiten no slo actualizar el estado accin actual del agente sino todos los dems. La traza elegible para el estado s y la accin a se expresa como e(s,a) e informa de cmo de fuerte se asume la conexin causal entre el estado actual y el estado anterior. La traza para un estado visitado se incrementa. Para el resto de estados decaer en un factor . e ( s, a ) + 1 s = st , a = at et ( s, a ) = t 1 (9) s, a et 1 ( s, a ) IV. EXPERIMENTOS A continuacin se presentan una serie de experimentos para demostrar el aprendizaje de las estrategias de dilogo ptimas. Los resultados presentan la configuracin de los parmetros para demostrar las ventajas de los sistemas de simulacin frente a los sistemas basados en corpus. La primera prueba pretende comprobar la bondad del sistema de aprendizaje. El espacio de estados y el espacio de acciones presentan un sistema de iniciativa mquina de ventas de tiques de tren. El sistema tiene que aprender la estrategia siguiente: preguntar por los datos que le faltan y al final realizar una confirmacin. El espacio de estados se define como [origen, destino, confirmacin] y el espacio de acciones como [Saludo, PreguntarOrigen, PreguntarDestino, Confirmar, Salir] La funcin de refuerzo ser un caso particular de la propuesta presentada (ec. 5) donde Np es el nmero de pasos realizados en la sesin de dilogo, We la ponderacin del error y Ne el nmero de errores cometidos. Rt=-Np-WeNe (10) El aprendizaje muestra los valores de los factores de aprendizaje y exploracin del sistema. La exploracin se detiene cuando el refuerzo converge a 1, lo cual indica que ya se ha aprendido la estrategia ptima del dilogo.

Estado [0 0 0 0] [1 0 0 0] [1 0 1 0] [1 1 0 0] [1 1 1 0] [1 1 1 1]

Accin Salutacin Preguntar origen/destino Preguntar origen Preguntar destino Confirmar Salir

Episodio

Fig. 5. (a) Estrategia aprendida. (b) Evolucin del refuerzo.

La segunda prueba es el diseo de un sistema de venta de entradas de cine con el siguiente espacio de estados.
Atributos Ttulo,hora,cine,numerada BBDD CL ValoresPorConfirmar Relajacin Posibles valores {conocido, no conocido} {buscado, no buscado} {alto, bajo} {0,...,3} {verdadero, falso}

Los parmetros ms importantes se configuran como sigue. Por un lado, del modelo simulado se destaca la probabilidad de que se cometa un error P(E)=0.2 y la probabilidad del usuario de proporcionar ms de un atributo al recibir la salutacin del sistema P(J/S)=0.8. El error se fija a C=25 dada la longitud esperada de nuestro sistema. Los factores de importancia del error son:
si accin = DATOS 4 wi = 0 si accin = C i CL = bajo 1 para el resto de acciones

(11)
Episodio

Fig. 8. Evolucin del refuerzo en un modelo modificado.

La importancia de acceder a la base de datos se pondera cuatro veces superior respecto de las dems acciones. Adems, se condiciona la confirmacin a que acte cuando el nivel de confidencialidad del reconocedor sea bajo.

Refuerzo

CONCLUSIONES En este trabajo se ha desarrollado un entorno para el aprendizaje automtico de estrategias de dilogo con el objetivo de facilitar y agilizar su diseo. El modelo simulado permite desarrollar sistemas desde cero con la intervencin mnima del diseador y proporciona una serie de herramientas para su configuracin. La consideracin de modelo simulado incluye la propuesta de diversos tipos de probabilidades que de manera fcil ponderan las diversas acciones. Los elementos ms importantes del aprendizaje son los espacio de estados, espacio de acciones y la funcin de refuerzo. Cuanto ms descriptivo sean los estados del sistema ms realista ser la estrategia a aprender y mejor converger el aprendizaje. El refuerzo nos marcar la direccin de optimizacin de la estrategia. Se ha propuesto adems una serie de parmetros objetivos a medir y unas reglas para fijar los ms importantes. Los resultados demuestran que es posible realizar el aprendizaje no supervisado de las estrategias de dilogo y que los parmetros permiten sistemas configurables. A partir de este aprendizaje es posible aplicar a estos sistemas una mejora mediante la interaccin con usuarios reales (PARADISE [8]) o aplicar las ltimas tendencias en las tecnologas del habla como por ejemplo, el VoXML [4]. REFERENCIAS
[1] [2] [3] J. Melenchn, F. Alias, I. Iriondo. PREVIS: a Person-Specific Realistic Virtual Speaker, IEEE International Conference on Multimedia and Expo (II) 2002, Lausanne, Switzerland. E. Levin, R. Pieraccini. A Stochastic Model of Computer-Human Interaction for Learning Dialogue Strategies. (Eurospeech97), Rhodes, Greece, 1997, pp. 1883-1886. E. Levin, R. Peraccini, W. Eckert. Using Markov Decision Process for Learning Dialogue Strategies. (ICASSP98), vol. 1, Seattle, US, May 1998, pp 201-204. O. Pietquin, T. Dutoit, Aided Design of Finite-State Dialogue Management Systems. (ICME03), Baltimore, july 2003. K. Scheffler, S. Young. Automatic Learning of Dialogue Strategy using Dialogue simulation and Reinforcement Learning.In Proceeding of Human Language Technology 2002, San Diego, pp. 12-18. R. Sutton, A. Barto. Reinforcement Learning: An introduction. Cambridge, MA: MIT Press, 1998. ISBN: 0-262-19398-1. W. Eckert, E. Levin, R. Pieraccini. User modelling for Spoken Dialogue System Evaluation. (ASRU97), 1997, pp 80-87. M.Walker, D. Litman, C. Kamm, A. Abella. PARADISE: A Framework for Evaluating Spoken Dialogue Agents. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, Madrid, Spain, 1997, pp. 271-280.

Fig. 6. (a) Evolucin refuerzo. (b) Ampliacin zona estable.

La evolucin del refuerzo por episodio tiene una fase de exploracin y una fase de explotacin. Como podemos observar, el refuerzo converge a los valores de estrategia ptima. Diferentes refuerzos para estrategias que responden a dilogos diferentes. Concretamente, un refuerzo de -3 hace referencia a un dilogo en el que el usuario proporciona todos los datos como respuesta a la salutacin del sistema (pregunta abierta). El peor caso -10, es un dilogo en el que el sistema se ve obligado a preguntar uno a uno todos los atributos porque el usuario colabora lo mnimo.
HOLA S n atrib P(atributo) BBDD Datos? No Relajacin Cerrar

Error?

C(Atributos) S

BBDD No Datos?

[4] Fig. 7. Estrategia aprendida.

Para un modelo diferente en el que modificamos la probabilidad del usuario en proporcionar ms de un atributo P(J/S)=0.1 vemos como el refuerzo total por episodio se mueve en [-6,-10] porque el usuario no colabora en la mayora de casos en la iniciativa mixta. En consecuencia, la estrategia del dilogo se sesga a una iniciativa mquina.

[5] [6] [7] [8]

You might also like