You are on page 1of 14

Laboratorio de Modelamiento

Matemtico:
Mixture of Experts

Mixture Models
Son modelos que mezclan otros modelos
probabilsticos con ciertas distribuciones de
probabilidad (gaussianas, Bernoulli, etc..)
Sirven para resumir varios datos no importando
que tan distintos sean. (eso del mismo tipo todos)
Estn basados en teora probabilstica, tal como
mtodos de mxima verosimilitud e inferencia
bayesiana.
Entre los modelos que se ocupan son
tpicamente de distribuciones que son simples y
relativamente bien entendidas.

Mixture Models,
Funcionamiento
Tarea:
medir altura de una gran cantidad de adultos.

Idea: Poder modelar la distribucin de alturas para


hombre y mujeres.
El procedimiento para cada dato x(t) (altura de
persona t) que ser:
1. Elegir al Azar alguna distribucin de pbb, con (i)
la pbb de seleccionar la gaussiana i-esima (este
es un pequeo modelo dentro de Mixture Models)
2. Se muestrea la i-esima gaussiana y esta muestra
sera el dato x(t), ademas la pbb que la gaussiana
i genere el valor x(t) es:

Mixture Models,
Funcionamiento

As para cada valor x(t) la pbb total de haberlo


escogido es:

Lo bueno de estos modelos es que adems


podemos saber que tanto influye el modelo i-esimo
sobre el dato x(t) obtenido

Mixture Models,
Funcionamiento

Con esta pbb influye el proceso i sobre el dato x(t)

Mixture Experts
Este tipo de modelo, tiene como subproceso distribuciones
de pbb condicional, a diferencia de Mixture Models.
Idea: es que teniendo datos de la forma ( x(t), y(t) ) con
t=1,,T
Donde
x(t): es un vector de entrada o variables explicativas e
y(t): es un vector de respuesta para x(t).
Es predecir los valores y(t) a partir de x(t), y luego probar
con nuevos valores de x(t) para predecir nuevos y(t) que
no conocemos.
El procedimiento es el que sigue:

El Modelo: Mixture Experts(ME)


Entonces
para en las entradas e en las salidas, entonces

los datos son generados por el ME como:


1. Un subproceso es elegido de una distribucin
multinomial con probabilidad , que se denotara como
2. Una salida es generada por el subproceso con
probabilidad (en esta parte normalmente se escoge una
probabilidad gaussiana).
Tomando la probabilidad gaussiana tendremos( tambin se
asume que es un escalar):

El Modelo: Mixture Experts


Donde
es la media de esta distribucin y es su

varianza.
As tenemos que :

Esto es la situacin para un elemento particular de


datos

El Modelo: Mixture Experts


Para
ver grficamente como se ve un ME

Esto es la situacin para un elemento particular de


datos
La

arquitectura de una ME
consiste en n mdulos
referidos como experts
networks.
Estas networks aproximan
los datos dentro de cada
regin de el espacio de
entrada: la expert network
asigna su entrada( el vector
de entrada ) a una salida .

El Modelo: Mixture Experts


Se

supone que la
diferencia de expert
networks son adecuadas
en diferentes regiones del
espacio de entrada.
Adems tenemos el
gating network que
identifica para la entrada
la mezcla de expert o
simplemente el expert
cuya salida es mas
probable para aproximar
la correspondiente salida

El Modelo: Mixture Experts


Las

salidas de la gating
network son un conjunto de
coeficientes escalares que
pesa en la contribucin de
los diversos experts.
Para cada estos coeficientes
son obligados a ser no
negativos y sumar en total 1.
La salida total de la
arquitectura, esta dada por:
que es una
combinacin convexa de las
salidas experts para cada

El Modelo: Mixture Experts


Algo

interesante del modelo , es que dado los datos


Podemos saber cuanto influye un proceso en la
obtencin del dato a partir de la entrada , de la
siguiente manera (usando formula de Bayes):

El Modelo: Posibles
aplicaciones
Problema de regresin:
Clasificacin de varios grupos.
Problemas de reconocimiento de patrones:
Problemas de reconocimiento de voz (http://
www.bcs.rochester.edu/people/robbie/pengjacobstanne
r.jasa96.pdf
)
(http://
www.bcs.rochester.edu/people/robbie/jacobs.j.n.h.nc9
1.pdf
)

Bibliografa

Mixtures-of-Experts [Department of Brain & Cognitive


Sciences, University of Rochester Rochester, NY 14627,
USA] Robert Jacobs.

Jacobs, R. A., Jordan, M. I., Nowlan, S. J., and Hinton, G. E.


(1991). Adaptive mixtures of local experts. Neural
Computation, 3, 79-87.

Jordan, M. I. and Jacobs, R. A. (1994). Hierarchical mixtures


of experts and the EM algorithm. Neural Computation, 6,
181-214.