Modelo probabilístico muy conocido y utilizado.
Empezaremos por una introducción. Después hablaremos de las distribuciones gaussianas multivariable. Después veremos las mixturas de distribuciones gaussianas multivariable. En cuarto lugar veremos el algoritmo de la maximización de la esperanza, que es el que se utiliza para entrenar estas mixturas. En quinto lugar veremos como evaluar el rendimiento de ese aprendizaje. Por último extraeremos algunas conclusiones.
1. Introducción
Las mixturas de gaussianas son con toda probabilidad los modelos probabilísticos más utilizados para datos continuos. Es decir, por ejemplo vectores de números reales y tienen una gran cantidad de aplicaciones. Por ejemplo, predicción de las ganancias en finanzas (aplicación de regresión), diagnóstico médico (aplicación de clasificación), o segmentación de imágenes (aplicación de agrupamiento).
En este tema vamos a estudiar modelos probabilísticos para datos con valores continuos, es decir, por ejemplo vectores de números reales.
Una mixtura de gaussianas (MoG) proporciona una estimación suave de la densidad de probabilidad o verosimilitud de cada punto del espacio de datos o espacio de entrada.
Vamos a estudiar también un método para entrenar una mixtura de gaussianas que se denomina maximización de la esperanza / expectation-maximization (EM) que maximiza la verosimilitud de los datos observados.
2. Gaussianas Multivariable / Multivariate Gaussians
Siendo x un vector formado por D variables aleatorias, podemos suponer que x se distribuye mediante una distribución de probabilidad p(x).
Cada muestra será entonces un vector xi en el espacio R^D que es el espacio formado por todos los vectores de D componentes de números reales donde D es la dimensión del espacio de datos.
Dado un conjunto de datos formado por muchos vectores xi podemos usar una gausiana multivariable para modelar la densidad de probabilidad subyacente p(x) aunque también habría otras posibilidades que no consideraremos aquí.
CARACTERIZACIÓN
Una gaussiana multivariable viene definida por dos parámetros:
- El vector de medias / mean vector:
Que define el centro de la distribución.
- La matriz de covarianza:
Es una matriz cuadrada de dimensión D x D que define como se distribuyen los datos a alrededor de la media.
Dado un vector de medias u y una matriz de covarianza C, la densidad de probabilidad de la gaussiana decae exponencialmente con respecto a la distancia de mahalanobis al cuadrado.
ROL DE LA MATRIZ DE COVARIANZA
Las superficies de igual densidad de probabiblidad son hiperelipsoides de igual distancia de mahalanobis.
Por otro lado, la matriz de covarianzas define el tamaño y la orientación de esos hiperelipsoides.
Cuanto más grande sea el determinante de la matriz de covarianza C, más se despliegan los datos alrededor de la media, o dicho de otra forma, más lejos estarán de la media.
Por último si el determinante de la matriz de covarianza es 0, decimos entonces que esa matriz es degenerada y la densidad de probabilidad está sin definir. Por lo tanto, esa es una situación que procuraremos evitar a toda costa.
3. Mixturas de Gaussianas Multivariable / Mixtures of Multivariate Gaussians
Una distribución de mixtura es una media ponderada de k distribuciones, donde el peso de cada componente de mixtura i se llama subprobabilidad a priori. La densidad de probabilidad de la iesima componente de mixtura se nota p(x | i), donde la densidad de la mixtura se denomina p(x).
La suma de los pesos o probabilidades a priori debe ser 1.
Una mixtura de distribuciones gaussianas multivariable (MoG) es una distribución de mixtura donde cada componente de mixtura es una gaussiana multivariable con su propio vector de medias ui y su matriz de covarianza Ci.
Cuanto mayor sea el número de componentes de mixtura k, más complejos podrán ser los conjuntos de datos que la mixtura podrá modelar.
4. Algoritmo de Maximización de la Esperanza / Expectation Maximization Algorithm
Es un algoritmo que se puede utilizar para entrenar o aprender una mixtura de gaussianas de las que hemos estudiado anteriormente.
Para aprender los parámetros de una mixtura de gaussianas (MoG), es decir, probabilidad a priori, vector de medias (ui), y matriz de covarianzas (Ci) para cada una de los componentes de mixtura i, A partir de un conjunto de n muestras de entrenamiento, el algoritmo de maximización de la esperanza es con mucho el más conocido y utilizado.
Además de la matriz de datos observados X, se supone que existe un vector de datos no observados y, de tal manera que X e y conjuntamente forman los datos completos.
Para una mixtura de gaussianas tenemos que el vector y está formado por n componentes, una por cada muestra de entrenamiento donde cada componente yj indica cual de los componentes de mixtura generó el dato jesimo.
El algoritmo intenta maximizar la verosimilitud o densidad de probabilidad de los datos observados con respecto a los parámetros del modelo que hemos mencionado anteriormente.
El algoritmo aplica iterativamente los siguientes dos pasos:
- Paso E (esperanza)
Calcula la esperanza Q de la verosimilitud logarítmica de los datos completos, dados los valores actuales de los parámetros y de los datos observados.
- Paso M (maximización)
Maximiza la esperanza de la verosimilitud con respecto a los parámetros para obtener los nuevos valores de esos parámetros.
CASO MoG
Paso E -> Se calculan las responsabilidades que son las probabilidades a posteriori de que cada una de las componentes de mixtura haya generado uno de los datos de entrenamiento.
Esas responsabilidades las denominaremos Rij. Y lo que quieren decir es que Rij es la probabilidad de que la componente de mixtura i se asocie al dato de entrenamiento j.
Paso M-> Actualizamos los parámetros. Tenemos ecuaciones de actualización para los 3 parámetros de la mixtura de gaussianas. Probabilidad a priori, vector de medias y matriz de covarianzas. Y en todos los pasos se hace una ponderación por las responsabilidades.
Así pues, cada una de las muestras de entrenamiento interviene en la actualización de los parámetros de una determinada componente de mixtura en tanto en cuanto las responsabilidades para ese componente de mixtura sean mayores.
5. Evaluar el Rendimiento / Performance Evaluation
El número de parámetros libres de una mixtura de gaussianas cuenta cuantos números deben ser aprendidos de los datos. Y aquí tenemos la ecuación correspondiente.
En términos generales, el logarítmo de la verosimilitud l de los datos se va a incrementar a medida que añadamos más parámetros libres, es decir, cuanto mayor es el número de los parámetros libres mejor será la verosimilitud de los datos.
No obstante, se puede preferir un tipo de modelo más sencillo, con menos parámetros libres, porque sean más fáciles y rápidos de usar y porque tengan una capacidad de generalización frente a datos todavía no observados mejor. Así pues, tenemos un equilibrio entre la verosimilitud y el número de parámetros libres que tenemos que resolver.
Para ello tenemos varios criterios para elegir un determinado modelo de mixturas de gaussianas frente a otro, que son diferentes maneras de resolver este equilibrio entre la exactitud que viene dada por la verosimilitud y la complejidad que viene dada por el número de parámetros libres.
CRITERIO DE INFORMACIÓN BAYESIANA
Dados varios modelos candidatos Mk, el criterio de información bayesiana (BIC) puede emplearse para elegir el modelo con la mayor probabilidad a posterioi bayesiana dada la matriz de datos observados X.
Si hacemos esto, elegiremos el modelo que arroje el menor valor del criterio de información bayesiana considerándose diferencias de más de 10 una evidencia muy fuerte en contra de un modelo.
[ecuación]
CRITERIO DE INFORMACIÓN DE AKAIKE
El criterio de información de akaike (AIC) puede utilizarse para elegir el modelo con la mínima perdida de información cuando el proceso que genera los datos se representa mediante ese modelo de mixtura de gaussianas.
Este criterio de información de akaike penaliza los parámetros libres menos intensamente que el criterio de información bayesiana.
Y de nuevo el modelo que arroje el menor valor del criterio de información de akaike es el que debe ser elegido utilizando para calcular este criterio la [ecuación].
VALIDACIÓN CRUZADA
Otra manera de evaluar el rendimiento es mediante la validación cruzada. Existen 3 tipos:
1- Holdout cross-validation:
El conjunto de ejemplos se divide k veces en conjunto de entrenamiento, de validación y de tests que deben ser conjuntos disjuntos. Partición del conjunto de todos los ejemplos disponibles.
La mixtura de gaussianas que dé el mayor valor del promedio de la verosimilitud L calculada sobre los k conjuntos de validación es la mixtura que es elegida como la que da mejor rendimiento.
Pero a la hora de informar acerca de su rendimiento lo que haremos será calcular ese rendimiento por media de la verosimilitud sobre los k conjuntos de tests. De esta manera nos aseguraremos de que los resultados que estamos informando no son excesivamente optimistas ya que los datos del conjunto de tests no habrán sido utilizados para elegir una mixtura de gaussianas frente a otra.
2- k-fold cross-validation:
Dividimos los datos en k subconjuntos aproximadamente del mismo tamaño. A continuación, llevamos a cabo k rondas de entrenamiento de tal manera que en cada ronda de entrenamiento uno de los subconjuntos sirve como conjunto de validación y otro como conjunto de tests.
Y de nuevo elegimos la mejor mixtura de gaussianas de acuerdo con el rendimiento sobre los conjuntos de validación y informamos del rendimiento obtenido sobre los conjuntos de tests.
3- Leave-one-out cross-validation:
Es una forma extrema, o caso particular de la validación cruzada k-fold, donde k es igual al número de muestras disponibles.
6. Conclusiones
Si tenemos datos multivariable donde todas las componentes son variables continuas, podemos modelar ese conjunto de datos mediante una mixtura de gaussianas.
El algoritmo de maximización de la esperanza se usa comúnmente para aprender los parámetros de esas mixturas de gaussianas.
Hemos estudiado criterios de selección de modelos a fin de elegir entre diferentes mixturas de gaussianas ya entrenadas.
Como colofón podemos indicar que muchos sistemas de visión por computador actuales están basados en mixturas de gaussianas.
Por ejemplo, a fin de realizar el seguimiento de objetos móviles en una escena se puede asociar cada objeto a una componente de mixtura de una mixturas de gaussianas que modele los datos de color de los píxeles y posición de esos píxeles.
No hay comentarios:
Publicar un comentario