You are on page 1of 26

Lnea: Minera de Datos

Mtodos y Herramientas Computacionales para el


Anlisis y la Visualizacin Informtrica
Responsable:
Dr. Humberto Carrillo Calvet

Lnea: Minera de Datos

Problemtica
La cantidad de datos que se genera y almacena hoy en
da en cualquier rea de conocimiento es tan vasta, que
rebasa las capacidades de asimilacin de cualquier ser
humano.
Este hecho ha ocasionado el nacimiento de nuevas
disciplinas como la denominada Descubrimiento de
Conocimiento en Bases de Datos (KDD), que se enfoca
en la extraccin de informacin a partir del
procesamiento de grandes cantidades de datos.

Lnea: Minera de Datos

Motivacin
Frente a este escenario, resulta apremiante
contar con mtodos y herramientas
computacionales capaces de analizar de forma
automtica y eficiente la gran cantidad de
informacin acumulada en cualquier disciplina.

Lnea: Minera de Datos

Objetivo
Investigar tcnicas y algoritmos de la
inteligencia computacional para basar en ellos el
desarrollo de sistemas de software que faciliten
el anlisis de informacin y descubrimiento de
conocimiento en grandes bases de datos.
Particularmente se investigarn tcnicas que
permitan la visualizacin automtica de
informacin digital.

Lnea: Minera de Datos

Objetivos Especficos
Investigar tcnicas y algoritmos de la inteligencia
computacional que permitan la visualizacin automtica
de informacin digital.
Disear metodologas, de anlisis de informacin,
basadas en tcnicas de la inteligencia computacional.
Disear y desarrollar prototipos de software que
implementen las metodologas planteadas.

Lnea: Minera de Datos

Antecedentes
Desarrollo de la Metodologa ViBlioSOM.
Aplicacin de tcnicas de Minera de Textos
Diseo e implementacin de algoritmos que construyen
redes Bayesianas a partir de datos
Aplicaciones de redes Bayesianas en diferentes
dominios: medicina, bioinformtica y educacin

Lnea: Minera de Datos

Metodologa ViBlioSOM

Est basada en la utilizacin secuencial de una coleccin de sistemas de


software que sirven para el procesamiento y anlisis inteligente de datos de
carcter cienciomtrico, mediante el uso de redes neuronales del tipo SOM.

Lnea: Minera de Datos


Base de Ficheros PubMed
La fuente de datos es la base de datos
MedLine de la Biblioteca Nacional de Medicina
de los Estados Unidos (National Library of
Medice, NLM).
MedLine:

Gratuita.
Contiene ms de 14 millones de
registros.
Recupera referencias
bibliogrficas de ms de 4,500
revistas mdicas desde el ao
de 1966.

MeSH Vocabulary

Lnea: Minera de Datos

La ontologa MeSH Vocabulary consta de aproximadamente


23, 000 conceptos.

rF
c
s
G
m
T
h
rts
o
n
A
lte
a
ice
iD
E
m
n
y
sy
o
N
F
rm
A
ly
i
M
C
e
th
a
p
tc
a
lS
A
ra
o
g
s
tu
isn
tcrig

Lnea: Minera de Datos


Penetracin de las Matemticas en la Biomedicina

10000

Nmero de documentos

8000

6000

4000

Mathematics
Algorithms

2000

Mathematical
Computing
Statistics

1950
1953
1956
1959
1962
1965
1968
1971
1974
1977
1980
1983
1986
1989
1992
1995
1998
2001
2004

Proporcin de documentos indexados con algn trmino perteneciente a


Mathematics (Total de documentos 1,109,035 )

Lnea: Minera de Datos


Visualizacin e interpretacin de resultados arrojados por la red neuronal

Mapas de componentes

Lnea: Minera de Datos


Visualizacin e interpretacin de resultados arrojados por la red neuronal

Mapas de componentes

Lnea: Minera de Datos


Visualizacin e interpretacin de resultados arrojados por la red neuronal

Anlisis de Conglomerados (Clustering)

Lnea: Minera de Datos


Mathematics
Decision Trees

Relaciones entre componentes


Mathematical Computing

Decision Support Techniques

Neural Networks
Finite Element Analysis
Algorithms
Game Theory

Decision Theory

Nonlinear Dynamics

Fourirer Analysis

Games Experimental
Fractals

Lnea: Minera de Datos

Minera de Textos

Desarrollo y explotacin de corpus lingsticos.


Reconocimiento de patrones lingsticos.
Explotacin de mtodos y recursos estadsticos.

candidatos

Lnea: Minera de Datos

Algoritmos que construyen Redes


Bayesianas

X1

Basededatos

X2

algoritmo
X3

X4

Elresultado:unaredBayesiana

Lnea: Minera de Datos

Aplicaciones de Redes Bayesianas en


diversos dominios

Diagnstico de cncer de seno


Diagnstico de cncer crvico-uterino
Evaluacin del potencial de marcadores
genticos para el diagnstico y diferenciacin de
tipos de cncer
Evaluacin de trayectorias escolares de
alumnos universitarios

Lnea: Minera de Datos

Resultados esperados
El desarrollo de metodologas para la extraccin de
conocimiento en bases de datos bibliogrficas.
El desarrollo de metodologas para la clasificacin no
supervisada de documentos, basados tanto en el
resumen (abstract) como en las palabras claves

Lnea: Minera de Datos

Resultados esperados
Un prototipo de software que implemente la metodologa
ViBlioSOM.
Un prototipo de software para la minera de datos con
Redes Bayesianas.
Un prototipo de motor de extraccin terminolgica
basado en reglas lingsticas y mtodos estadsticos
El diseo de un sistema de software que integre la
funcionalidad de los prototipos construidos.

Lnea: Minera de Datos

Estrategia de trabajo
Conformacin de dos equipos de trabajo, uno
para la construccin del software propuesto y
otro para la transferencia e investigacin de
algoritmos para el pre-procesamiento, minera
de datos, evaluacin y visualizacin.

Lnea: Minera de Datos

Estrategia para el Desarrollo de


Software

Diseo basado en componentes


Mejor manejo de cdigo: reutilizacin, depuracin,
mantenimiento, evolucin.
Componente
Clase de objetos que
slo implementa
algoritmos.
Implementa la interfaz visual
y con el usuario

Paquete
Paquetede
de
clases
clases

Paquete
Paquetede
de
componentes
componentes

Lnea: Minera de Datos

Fusin de mtodos de minera de datos

Utilizando componentes de software de manera natural


se consigue que los datos de salida de un algoritmo que
pertenece a una metodologa se puedan usar como
entrada de un algoritmo de otra metodologa.

Redes
Redesbayesianas
bayesianas

Mapas auto-organizados
Mapas auto-organizados
(SOM)
(SOM)
Matriz de
Datos

Lnea: Minera de Datos

Reutilizacin en otros dominios

Los distintos paquetes de componentes se


podrn usar para construir aplicaciones en
distintos dominios de investigacin:

Mapas
Mapasauto-organizados
auto-organizados
(SOM)
(SOM)

Bibliometra

Bolsa de
valores

Bioinformtica

Trayectoria
Escolar

Procesos
Industriales

Control

Redes
Redesbayesianas
bayesianas

Lnea: Minera de Datos

Avances
Se llevaron a cabo distintas aplicaciones
experimentales con la metodologa ViBlioSOM.
Se dise y desarroll un prototipo de software
que implementa dicha metodologa.
Se estn realizando distintas pruebas con este
prototipo a partir del cual se planea realizar una
segunda etapa de desarrollo.

Lnea: Minera de Datos

Productos Obtenidos
Prototipo de software que implementa la
metodologa ViBlioSOM.
Tesis conjunta de licenciatura en Ciencias de la
Computacin.
Tesis de Actuara

Lnea: Minera de Datos

Participantes

Investigador Responsable:
Humberto Carrillo Calvet, (Facultad de Ciencias)
Investigadores participantes (6):
Nieves Martnez de la Escalera Castells (Facultad de Ciencias)
Gerardo Sierra Martnez (Instituto de Ingeniera)
Alfonso Medina Urrea (Instituto de Ingeniera)
Nicandro Cruz Ramrez (Universidad Veracruzana)
Mara Victoria Guzmn Snchez (Instituto Finlay)
Tcnicos participantes (5):
Luis Nava Fernndez (Facultad de Ciencias)
Jos Luis Jimnez Andrade (Facultad de Ciencias)
Romel Calero (Instituto Finlay)
Mary Carmen Trejo Avila (Facultad de Ciencias)
Alexei Eleusis Daz Vera (Facultad de Ciencias)
Alumnos de Posgrado(4):
Elio Villaseor Garca
Ernesto Ramrez Montalvo
Luis Alberto Barrn Cedeo
Ricardo Olvera

You might also like