You are on page 1of 4

1

APRENDIZAJE NO SUPERVISADO DE LA ACCIN HUMANA, USO DE LAS CATEGORIAS ESPACIO-TEMPORAL DE LAS PALABRAS
Quevedo Pardo, Y. Estudiantes Ingeniera de Sistemas, Universidad de los Llanos. Villavicencio, Meta.
VISION ARTIFICIAL POR COMPUTADOR Yeimy989@hotmail.com

I. INTRODUCCIN Este documento es un resumen del artculo Unsupervised Learning of Human Action Categories Using Spatial -Temporal Words. El cual presenta un nuevo mtodo de aprendizaje sin supervisin, de la accin humana, representado en una secuencia de video como una coleccin de espacio-temporal de palabras, consiste en la extraccin de espacio-tiempo de los puntos de inters, utilizando para esto un anlisis probabilstico a travs de una herramienta actual de la psicolingstica computacional, que es el Anlisis Semntico Latente. Teniendo en cuenta el video realizado a cualquier individuo en movimiento, el modelo puede clasificar y localizar cualquier accin humana contenida en l adems de registrar complejas secuencias de vdeo que contienen propuestas de resolucin mltiple, un fondo desordenado, movimientos de la cmara y variaciones fotomtricas de los objetos. II. EVOLUCION DE LOS MODELOS PROPUESTOS Este tema ha sido de inters para muchos, por tal motivo han existido varios modelos para buscar el seguimiento de las acciones humanas, uno de los primeros modelos aplicaba un seguimiento de trayectorias de movimiento de las partes del cuerpo a la accin, manejando el espacio-temporal, haciendo tambin un reconocimiento pero requera supervisin humana. Luego apareci otro modelo que utilizaba el espacio-tiempo pero local en cuadros de videos, se empez a implementar el aprendizaje automtico y reconocimiento de las clases de acciones complejas con un detector de puntos de inters en espacio-tiempo, ste detectaba las estructuras locales donde los valores de la imagen tenan importantes variaciones locales en ambas dimensiones.

Apareci un modelo propuesto por Doll'ar que di otro enfoque alternativo para detectar en el tiempo y espacio, escasos puntos de inters basados en lineales separables de filtros para reconocer la conducta, siendo til para proporcionar el significado semntico de eventos de vdeo, proporcionando una compacta y abstracta representacin de los patrones. Crearon despus una representan de un modelo de acciones de personas, como un grfico triangular, utilizando seales mltiples, como la posicin, la velocidad y el aspecto, estas se han considerado en el aprendizaje y deteccin. Mapeando las partes del cuerpo humano cuadro a cuadro, sin utilizar el espacio-tiempo para el reconocimiento de la accin. Otro trabajo propuesto por Cheung, utiliza un modelo de espacio-tiempo de los cubos de un vdeo especfico. Siendo el modelo aprendido una representacin compacta del vdeo original, por lo tanto este enfoque es adecuado para la resolucin de sper-vdeo y vdeo de interpolacin, pero no para el reconocimiento. III. LA IDEA DEL MODELO A TRABAJAR El modelo de aprendizaje no supervisado de la accin humana, con el uso de las categoras espacio-temporal de las palabras busca tener en cuenta dos escenarios. Uno es a partir de secuencias de vdeo con un conjunto de datos KTH y otro a travs del conjunto de datos de patinaje artstico.Se basa en proponer el enfoque de un modelo con grficas generativas de aprendizaje y reconocimiento de las acciones humanas en vdeo, aprovechando la representacin espacial robusta de las palabras temporales y un enfoque sin supervisin durante el aprendizaje. Usando la deteccin de objetos y su clasificacin, sin etiquetar imgenes estticas. Este modelo utiliza dos modelos relacionados, el probabilstico a travs del Anlisis Semntico Latente

(PISA) hecho por Hofmann y la Asignacin Latente de Dirichlet (LDA). El funcionamiento de este modelo consiste en extraer localmente las regiones utilizando el detector de puntos de inters en el espacio-tiempo, estas regiones locales se agrupan en un conjunto de vdeo con palabras en clave, llamado libro de cdigos. Las distribuciones de probabilidad intermedia y los temas se aprenden de forma automtica mediante un modelo grfico de PISA. El aprendizaje no supervisado de medidas que utilizan representacin de las palabras de vdeo. Se aplica un modelo pLSA para el anlisis de vdeo. Siendo no slo capaz de clasificar las diferentes acciones, sino tambin localizar las diferentes acciones de forma simultnea de una novela y la secuencia de vdeo complejos. IV. DESCRIPCION DETALLADA DEL MTODO PROPUESTO Dada una coleccin de vdeos sin etiquetar, el objetivo es aprender de forma automtica las diferentes clases de acciones presentes en los datos, y aplicar el modelo aprendido a la categorizacin de una accin y su localizacin en las secuencias de vdeo. Laptev y Lindeberg, proponen la versin ampliada de la deteccin de puntos de inters en el dominio espacial al exigir valores de la imagen en el espacio-tiempo y tener grandes variaciones en ambas dimensiones. Estos se extraen alrededor de los mximos locales de la respuesta funcin. Cada parche contiene el volumen contribuido a la funcin de respuesta, es decir, su tamao es aproximadamente seis veces a lo largo de las escalas de cada dimensin. Para obtener un descriptor para cada cubo de espacio-temporal, se calcula el gradiente de brillo y se concatena para formar un vector, luego se proyecta en el espacio tridimensional utilizando un menor de PCA. Las caractersticas de la representacin de los puntos de inters en el espacio- tiempo, son escasas para caracterizar complejos vdeos, al existir una cmara fija o un proceso que pueda explicar el movimiento de la cmara, es necesario usar el mtodo separable del filtro lineal aplicado al vdeo para obtener la funcin de respuesta de la siguiente manera: Los dos parmetros y corresponden a la distribucin espacial y temporal de las escalas del detector, respectivamente. En todos los casos utiliza = 4/ , dando efectivamente la funcin de respuesta de R. Se puede correr el detector sobre una sola escala y l se basa en el libro de cdigos para codificar los pocos cambios en la escala del conjunto de datos. As una regin espacial con caractersticas distintivas sometidas a un movimiento complejo puede inducir a una respuesta firme. El modelo grfico pLSA usado para el anlisis del video se explica de la siguiente forma: N (j =1,, N): Es la secuencias de vdeo que contienen palabras de un vocabulario de la talla M (i = 1;; M) n (wi, dj): Almacena el nmero de ocurrencias de una palabra en wi y la de un video en di donde cada tema corresponde a un categora de movimiento. Maneja la probabilidad P(wi, dj, zk) donde: P(dj, wi) = P(dj)P(wi|dj) y (dj, wi) son generados de forma independiente, se pueden marginar a ms de temas zk para obtener la probabilidad P(wi|dj) =K
k=1

P(zk|dj)P(wi|zk)

Siendo P(zk|dj) la probabilidad del tema zk que ocurre en un vdeo dj, y P(wi|zk) la probabilidad de palabra de vdeo wi producida en una determinada categora de accin zk. K es el total de el nmero de temas latentes, por lo tanto, el nmero de categoras de accin en este caso.

Figura 1e. Modelo grafico de PISA

Donde g (x, y, ) es el ncleo 2D del suavizado gaussiano, slo puede aplicarse a lo largo del territorio dimensiones (x, y), donde hev y hod son un par de cuadraturas de filtros de Gabor aplicado temporalmente a 1D, que se definen como:

En la imagen los nodos son variables aleatorias. Los sombreados son los observados y sin sombra son inobservables. Las placas indican repeticiones.

Cada video realiza as una mezcla de categora de accin- histogramas de un video especial, con el fin de determinar el modelo que da la alta probabilidad de vdeo a las palabras que aparecen en el corpus, una estimacin de mxima de los parmetros, se obtiene maximizando la funcin objetivo utilizando una expectativa de maximizacin del algoritmo (EM):

de espacio-tiempo de parches (alrededor de 60.000) para adaptarse a los requisitos de la memoria. Se realiza una matriz de confusin muestra gran confusin entre correr` y ' trotar', as como 'agitar las palmas' y boxear. Demostrando que las acciones similares son ms fciles de confundir unas con otras. El resultado de aprendizaje sin supervisin est a la par con el estado actual de los resultados obtenidos por la formacin Theart totalmente supervisado.

El objetivo es clasificar nuevas secuencias de vdeo utilizando una accin aprendida. Para esto se ha obtenido la categora de una accin especfica de palabras de vdeo en distribuciones P(w|z) de un diferente conjunto de secuencias de la informacin. El modelo pLSA de los modelos posteriores es:

A dems PISA es ligeramente mejor que la pLSA en el rendimiento del reconocimiento con el mismo nmero de palabras en clave.

La palabra de vdeo alrededor de cada punto de inters, se puede etiquetar con los temas de cada palabra para encontrar el mximo de P posteriores P(zk|wi, dj). V. RESULTADOS EXPERIMENTALES SOBRE LA ACCIN HUMANA El modelo de aprendizaje no supervisado de la accin humana, con el uso de las categoras espacio-temporal de las palabras busca tener en cuenta dos escenarios. Uno es a partir de secuencias de vdeo con un conjunto de datos KTH (conjunto de datos de movimiento humano) y otro a travs del conjunto de datos de patinaje artstico. Se analiza los resultados experimentales de estos dos conjuntos con fondo desordenado, movimiento de cmaras, y mltiples acciones. Siendo capaz de manejar los puntos de funcin ruidosa surgida del fondo dinmico y cmaras en movimiento utilizando el modelo grfico probabilstico (PISA), pero el fondo no debe equivaler un nmero abrumador de puntos de funcin. Para el reconocimiento y localizacin usando datos de KTH, cada vdeo tiene una sola accin. El conjunto de datos contiene seis tipos de humanos las acciones (caminar, trotar, correr, boxeo, agitando la mano y las palmas) realizado varias veces por 25 temas en diferentes escenarios de medio ambiente al aire libre y cubierta con cambio de escala. Contiene 598 secuencias. El nmero de espacio-tiempo de los parches usados para extraer las palabras en clave de vdeo suele ser muy grande, por esto se selecciona al azar un nmero menor
Figura 2. Localizacion y reconocimiento de KTH

Las categoras de accin estn integradas en los marcos de vdeo utilizando diferentes colores. La mayora de espacio-temporal las palabras estn marcadas por el color de la accin correspondiente para cada vdeo. Para la localizacin de la accin se us el modelo Caltech, reconociendo correctamente la mayora de las secuencias de accin por la claridad de la presentacin, con slo sealar las palabras de vdeo del tema con su color correspondiente. Para el reconocimiento y la localizacin de las acciones de patinaje artstico sobre hielo se adapt 32 secuencias de vdeo de 7 personas cada uno con tres acciones: Stand-espn, camellos y se sientan spin-spin. El resultado es reportado como la media de siete carreras. La matriz de confusin en un modelo de tres clases de patinaje artstico para el conjunto de datos usando 1200 palabras en clave. El mayor tamao de las claves es til para evitar overfitting del modelo generativo. El overfitting se produce cuando un modelo estadstico que describe el error aleatorio o ruido en lugar de la

relacin subyacente. El potencial de overfitting no slo depende del nmero de parmetros y datos, sino tambin la conformacin de la estructura del modelo con la forma de datos, y la magnitud del error del modelo en comparacin con el nivel esperado de ruido o error en los datos. En la imagen se visualiza los ejemplos de Caltech conjunto de datos con cdigos de color acciones (a), patinaje artstico conjunto de datos con cdigos de colores acciones (b).

CONCLUSIONES Para el anlisis del enfoque de aprendizaje no supervisado, se debe manejar un modelo combinado de espacio-tiempo a travs de los puntos de inters del detector, es usado eficazmente para la categorizacin de la accin humana y la localizacin de cada una de estas o de mltiples acciones en movimiento. Este tema es un desafo ya que en un futuro no lejano toda la implementacin de visin e inteligencia artificial se comunicaran oral y gestualmente y sean capaces de anticiparse a los deseos de las personas, logrando una mayor interaccin con ellas. REFERENCIAS 1.http://vision.stanford.edu/documents/NieblesHWangF ei-Fei_BMVC2006.pdf 2.http://www.scielo.cl/scielo.php?pid=S071809342003005300008&script=sci_arttext 3.http://visionlab.ece.uiuc.edu/niebles/humanactions.ht m 4.http://www.solociencia.com/noticias/0504/08164610.h tm Yeimy Jaidith Quevedo Pardo, Estudiante de Ingeniera de Sistemas, Facultad de Ciencias Bsicas e Ingeniera. Universidad de los Llanos. Cdigo estudiantil 160-00-1829.

Figura 3. Localizacion y reconocimiento patinaje sobre hielo

Adems del reconocimiento y localizacin el algoritmo manejado identifica mltiples acciones dentro de una secuencia larga de vdeo. Para ello, se prueba largas cifras de varias secuencias de patinaje, as como nuestras propias secuencias de vdeo complejos. Al contar el nmero de palabras de vdeo dentro de cada grupo con respecto a la las categoras de accin, reconocemos las acciones dentro de ese vdeo. El cuadro delimitador se traza segn el eje y los valores de la distribucin espacial de las palabras de vdeo en cada grupo. Para las secuencias aplicadas al de vdeo de patinaje, se extrae una secuencia de ventana alrededor de cada cuadro y se define las acciones importantes con los tres modelos de clase aprendidos. Luego de ese marco se etiqueta como la categora de accin identificada. De esta forma las tres acciones " stand-spin, camel-spin and sitspin, son reconocidas y etiquetadas correctamente utilizando diferentes colores.

You might also like