Professional Documents
Culture Documents
DETECCIN DE CONGLOMERADOS EN LA SOLUCIN DE PROBLEMAS
BIOINFORMTICOS Y BIOMDICOS
DETECCIN DE CONGLOMERADOS EN LA SOLUCIN DE PROBLEMAS
BIOINFORMTICOS Y BIOMDICOS
A mis tutores, Gladita y Grau, por su apoyo incondicional, por ser de los buenos
entre los buenos. Por estar siempre a mi lado, en especial Gladita, que me
alent cuando el cansancio asomaba y ayud a levantar luego de cada tropiezo,
por demostrarme que es una amiga especial.
Scan methods can be found among the many algorithms reported in literature to
detect clusters. In this thesis we present its mathematical foundations and
perform a simulation study to analyze its responsiveness. Based on these
results and the theory of fuzzy logic, we propose novel algorithms: The Fuzzy
Scan methods.
The problem of properly select the values for the parameters is also addressed
in the proposed methods. Simulation studies are conducted on small sequences
(size 100, 300 and 500) and as a complement, a non-parametric experimental
design was executed over longer sequences (up to 1 000 000). Finally, we
propose the use of a bioinspired algorithm to find the appropriate values for the
parameters of the studied methods.
The results of the simulation as well as the results of the real world applications
demonstrated the superiority of the fuzzy methods.
TABLA DE CONTENIDOS
INTRODUCCIN .............................................................................................................1
CAPTULO I. LAS TCNICAS DE DETECCIN DE CONGLOMERADOS Y LA
BIOINFORMTICA ....................................................................................9
1.1 Tcnicas de deteccin de conglomerados..............................................................9
1.1.1 El mtodo Scan sobre una lnea .....................................................................10
1.1.2 El mtodo Scan sobre un crculo ....................................................................12
1.1.3 Algunas consideraciones sobre los mtodos Scan.........................................13
1.2 Aplicaciones de tcnicas de deteccin de conglomerados en Bioinformtica ......13
1.2.1 Estudio de secuencias genmicas..................................................................14
1.2.2 Problemas bioinformticos que se resuelven mediante tcnicas de
conglomerados...............................................................................................17
1.3 Introduccin a la lgica borrosa ............................................................................20
1.3.1 Funciones de pertenencia...............................................................................23
1.3.2 Borrosificador ..................................................................................................25
1.3.3 Desborrosificador ............................................................................................26
1.4 Diseo de experimentos bifactorial no paramtrico ..............................................27
1.5 Algoritmos bioinspirados .......................................................................................30
1.6 Mtodos de Monte Carlo.......................................................................................33
1.7 Evaluacin de los conglomerados como clasificadores........................................35
1.8 Consideraciones finales del captulo.....................................................................38
CAPTULO II. NUEVOS MTODOS DE DETECCIN DE CONGLOMERADOS.
AJUSTE DE SUS PARMETROS...........................................................40
2.1 Generalizacin de los mtodos de deteccin de conglomerados.........................40
2.1.1 Algoritmo del mtodo Scan Generalizado sobre una lnea.............................42
2.1.2 Algoritmo del mtodo Scan Generalizado sobre un crculo ............................43
2.2 Estudio con datos simulados ................................................................................43
2.2.1 Bases de la simulacin realizada....................................................................43
2.2.2 Resultados y discusin ...................................................................................45
2.2.3 Algunas consideraciones del estudio con datos simulados ............................49
2.3 Los mtodos Scan Borrosos.................................................................................50
2.3.1 El mtodo Scan Borroso sobre una lnea .......................................................50
2.3.2 El mtodo Scan Borroso sobre un crculo.......................................................55
2.3.3 Estudios de simulacin ...................................................................................56
2.3.4 Validar los resultados de la simulacin ...........................................................60
2.3.5 Algunas consideraciones acerca de los mtodos Scan Borrosos ..................62
2.4 El problema del ajuste de los parmetros.............................................................62
2.4.1 Diseo experimental bifactorial no paramtrico ..............................................63
2.4.2 Algoritmos bioinspirados: optimizacin basada en enjambre de partculas....67
2.4.3 Mtodos de Monte Carlo combinado con el PSO y los mtodos Scan...........69
2.4.4 Resumen de recomendaciones para la seleccin de valores adecuados para
los parmetros................................................................................................70
2.5 Anlisis del comportamiento de los algoritmos .....................................................71
2.6 Consideraciones finales del captulo ....................................................................73
CAPTULO III. APLICACIONES A PROBLEMAS BIOINFORMTICOS Y BIOMDICOS
.................................................................................................................74
3.1 Sobre la implementacin de los algoritmos ..........................................................74
3.2 Problemas sobre orgenes de replicacin del ADN ..............................................76
3.2.1 Concentraciones de palndromos en los orgenes de replicacin del ADN en
herpesvirus.....................................................................................................77
3.2.2 Patrones especficos alrededor de los orgenes de replicacin en bacterias .81
3.3 Problemas sobre alineamiento de secuencias......................................................83
3.4 Problemas sobre deteccin de conglomerados de enfermos ...............................86
3.4.1. Metodologa para la aplicacin de los mtodos Scan en la deteccin de
conglomerados de enfermos..........................................................................87
3.4.2. Anlisis y discusin de las enfermedades estudiadas en Cifuentes..............90
3.4.3. Consideraciones sobre la deteccin de conglomerados de enfermos...........98
3.5 Consideraciones finales del captulo.....................................................................98
CONCLUSIONES Y RECOMENDACIONES.................................................................99
REFERENCIAS BIBLIOGRFICAS.............................................................................101
Produccin cientfica del autor sobre el tema de la tesis .............................................112
Anexos ...............................................................................................................115
Anexo 1: ANOVA bifactorial no-paramtrico.............................................................115
Anexo 2. Scan Lineal Generalizado..........................................................................117
Anexo 3. Scan Circular Generalizado .......................................................................118
Anexo 4. Scan Lineal Modificado con verdaderos conglomerados creados con el 10%
del tamao total de la secuencia ........................................................................119
Anexo 5. Scan Circular Modificado con verdaderos conglomerados creados con el
10% del tamao total de la secuencia ................................................................120
Anexo 6. Scan Lineal Borroso...................................................................................121
Anexo 7. Scan Lineal Borroso con verdaderos conglomerados creados con el 10 %
del tamao total de la secuencia ........................................................................125
Anexo 8. Scan Circular Borroso con verdaderos conglomerados creados con el 10%
del tamao total de la secuencia ........................................................................126
Anexo 9. Scan Lineal con verdaderos conglomerados creados con el 5% del tamao
total de la secuencia ...........................................................................................127
Anexo 10. Scan Circular con verdaderos conglomerados creados con el 5% del
tamao total de la secuencia ..............................................................................128
INTRODUCCIN
Por otra parte, los aportes que el desarrollo de las computadoras ha realizado a la
ciencia en general son innegables. Las investigaciones mdicas y biolgicas no
constituyen una excepcin (Cheng y Baldi 2005). Los primeros anlisis computarizados
se centraron en el anlisis de secuencias, pero contrario a lo esperado, an en ese
1
http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html
1
Introduccin
Antecedentes
Las mayores dificultades surgen cuando los datos tienen una naturaleza anecdtica.
No se trata en estos casos de que no puedan aplicarse pruebas estadsticas para
2
Introduccin
arrojar un resultado, ms bien lo que ocurre es que las pruebas utilizadas hasta el
momento quedan invalidadas porque los datos pueden estar sesgados o parcializados
en algn sentido. La formulacin rigurosa de tcnicas estadsticas ayuda, entonces, a
los epidemilogos tambin en un sentido metodolgico, con el fin de lograr datos
correctos o al menos seguir un esquema o diseo preconcebido. Si ello se logra,
aunque el proceso de recoleccin no sea perfecto, ser posible extraer conclusiones
ms fidedignas en la medida en que se utilice el aparato matemtico ms amplia y
consecuentemente (Casas 2003; Casas et al. 2004).
Las tcnicas que detectan focos epidmicos trabajan con fecha ordenadas. Las
secuencias de ADN tienen un orden que no puede ser cambiado, pero sus elementos
no son fechas sino posiciones en el espacio, en principio lineal, si hablamos de
estructura primaria, pero podran ser bidimensionales o espaciales. De cualquier
manera los mtodos de deteccin de conglomerados deben ser modificados para que
puedan ser aplicados en contextos bioinformticos u otros cualesquiera ms all de los
estudios epidemiolgicos para los que fueron concebidos.
Situacin problmica
3
Introduccin
Lo que se dice para el genoma humano, es de inters tambin para los genomas de
muchas especies, animales o vegetales, o de microorganismos, porque en ltima
instancia todos ellos pueden ser importantes para el hombre. Para ayudar a los
investigadores a determinar el sentido de este aluvin de datos, se utilizan, cada vez
ms, instrumentos informticos, como sistemas de informacin y de gestin de bases
de datos e interfaces grficas de usuario, sistemas estadsticos y algoritmos
inteligentes, entre muchos otros.
4
Introduccin
Otro problema radica en la deteccin adecuada de los valores de los parmetros que
intervienen en el modelo que se utilice. Generalmente los parmetros de los mtodos
estadsticos los selecciona un investigador experto en el tema. En ocasiones esta tarea
resulta ser muy difcil, incluso para un especialista en la temtica. Valores incorrectos
pueden conducir a resultados errneos y si se habla de deteccin de conglomerados,
tales errores suelen detectar falsos conglomerados, o no detectar los verdaderos.
Hasta qu punto el uso de la lgica difusa puede ayudar en el proceso de seleccin
adecuada de los parmetros es otra pregunta de investigacin que trataremos de
abordar en el presente trabajo.
Objetivo general
5
Introduccin
Tareas de investigacin
4. Validar su superioridad.
Novedad Cientfica
2. Se establecen reglas para determinar los valores adecuados para los parmetros
de los mtodos desarrollados.
6
Introduccin
La novedad est avalada por las publicaciones que se describen al final de la tesis.
Valor prctico
Hiptesis de investigacin
Estructura de la tesis
El Captulo I se dedica a la elaboracin del marco terico desde el punto de vista de las
tendencias actuales en el desarrollo y evaluacin de los conglomerados. Se muestran
algunas aplicaciones interesantes de estas tcnicas, especialmente en el campo de la
Bioinformtica.
7
Introduccin
8
CAPTULO I. LAS TCNICAS DE DETECCIN DE CONGLOMERADOS Y LA
BIOINFORMTICA
Tampoco existen tcnicas globales que puedan aplicarse a todas las situaciones, por
eso hay gran diversidad de mtodos con la misma finalidad. En un estudio preliminar
de las tcnicas de deteccin de conglomerado, se eligi una de las ms populares y
sobre ella se trabaj: el mtodo Scan (Naus 1965) porque trabaja sobre una lnea, en
9
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
principio temporal, pero que puede extenderse al sentido espacial (Rodrguez et al.
2008b).
Sean X1, X2, ..., Xn variables aleatorias independientes e idnticamente distribuidas que
denotan las fechas de ocurrencias de n eventos en el intervalo [0, T]. Se quiere probar
la hiptesis nula de que los eventos estn uniformemente distribuidos contra la
alternativa de que existe un conglomerado dentro de algn subintervalo de [0, T]
(Nagarwilla 1996).
t : amplitud de la ventana.
L = T t : fraccin que representa el perodo de tiempo total que se analiza con relacin
al ancho de la ventana.
10
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
casos que aparecen en una ventana cuando se mueve continuamente a lo largo del
tiempo. En la prctica, la ventana [y, y+t) se mueve discretamente a partir de una
sucesin de puntos equidistantes y1, y2,, yk que cubren todo el perodo de anlisis de
amplitud T. Se denomina paso del Scan o paso del desplazamiento a y = y k y k 1 .
' = max w y
1 i k t
{ i , y i +t }
La idea del mtodo es que si existe un conglomerado el nmero mximo de casos
hallados en una ventana debe ser grande con respecto a los dems valores. El test
estadstico depende de varios de los parmetros explicados con anterioridad y en
esencia calcula la probabilidad p de que aparezcan w o ms casos en una ventana. La
frmula que se utiliz para p es la propuesta en Naus (1982):
p = P * (, L, 1 L ) = 1 Q * (, L, 1 L ) (1.1)
donde Q * puede ser aproximado para cualquier L>2 a partir de sus valores con L = 2 y
L = 3.
[
Q * (, L,1 L ) Q * (, 2 , 1 2) Q * (, 3 , 1 3) Q * (, 2 , 1 2) ]L2
(1.2)
Para >2, pi = e i i ! , F = pi , > 0 , se tiene que:
i =0
Q * (, 2 ,1 2) = F21 ( 1) p p 2 ( 1 ) p F 3 (1.3)
Q * (, 3 ,1 3) = F31 A 1+ A2 + A3 A4 (1.4)
donde:
A 1= 2 p F 1 ((w 1) F 2 F 3 ) (1.5)
11
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
1
A4 = p2 r pr ((r 1)Fr 2 Fr 3 ) (1.8)
r =2
Este mtodo es una variacin del anterior y se utiliza para enfermedades que tengan
un comportamiento estacional. Los datos se encuentran ordenados cronolgicamente a
lo largo de la lnea del tiempo y el crculo se forma uniendo la ltima fecha con la
primera. En epidemiologa tiene mucho sentido, para estudiar conglomerados de
enfermedades que pueden tener un carcter peridico.
donde ahora:
[
Qc* (, L,1 L ) Q * (, 4,1 4) Q * (, 3,1 3) ] [Q (, 2,1 2) ]
L2 * L 1
(1.10)
12
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
[ ]
Q * ( , 4,1 4 ) Q * (, 3,1 3)
2
Q * (, 2,1 2 ) (1.10)
Algunos autores han tratado de modificar el mtodo Scan de diferentes formas. Por
ejemplo, el mtodo no es vlido cuando los factores de riesgos de poblacin varan.
Martn (1981) sigui una estrategia de generalizacin que resuelve este problema.
Se han realizado esfuerzos para aumentar el dominio de aplicacin del Scan a dos y a
tres dimensiones. Con dos dimensiones se pueden detectar conglomerados
geogrficos, (Kulldorff 1997; Kulldorff 1999; Kulldorff 2001; Kulldorff et al. 2007)
mientras que con tres la deteccin puede ocurrir en el espacio-tiempo. (Kulldorff 1998).
En este trabajo se realiza una generalizacin del mtodo Scan en sus dos variantes:
lineal y circular, para encontrar conglomerados no slo de enfermos, sino de cualquier
categora de inters en cualquier rama de la ciencia.
13
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
3
http://www. ebi.ac.uk/embl/index.html
14
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
4
http://pir.georgetown.edu/
5
http://www.expasy.ch/sprot/
6
http://www.nig.ac.jp/home.html
15
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
de Markov (HMMs) que proporcionan una estructura general para el anlisis estadstico
de una amplia variedad de problemas de anlisis de secuencias, pero hay realmente
una gama no estrecha de modelos grafo-probabilsticos para resolver tareas de este
tipo (Janssens et al. 2005).
7
Alineamiento: Dos o ms secuencias supuestamente similares ordenadas entre las partes que
realmente juegan el mismo rol, introduciendo, si es necesario en las secuencias, "gaps" para
lograr desplazamientos adecuados a la derecha o la izquierda de zonas reconocibles.
8
BLAST se utiliza para buscar regiones similares entre secuencias biolgicas.
9
FASTA permite hacer una comparacin rpida de protenas o nucletidos.
16
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Existe otra amplia gama de problemas que pueden resolverse buscando patrones
especficos en la secuencia de ADN, como son por ejemplo codones de inicio y
terminacin, patrones de secuencias en puntos de splicing, zonas de promotores,
regiones no traducidas (UTP) entre otros (Boutros 2006; Wang et al. 2004). La
deteccin de estos patrones determina la existencia o no de alguna funcin general o
especfica del genoma, y se realiza con ayuda de herramientas algortmicas y
computacionales.
Entre las tcnicas ms exitosas hoy en da se utilizan las cadenas ocultas de Markov
(Baldi y Brunak 2001; Delvin 2006; Durbin et al. 2003; Prinzie y Vanden 2007), las
redes neuronales (Bonet et al. 2007; Bonet et al. 2008; Chvez et al. 2007b; Chvez et
al. 2008b; Rodrguez y Bonet 2007) las mquinas de vectores de soporte (Support
Vector Machines (SVM) (Jaronski et al. 2005; Rodrguez et al. 2006; Rodrguez et al.
2007a; Vanhulsel et al. 2009) y hasta otras herramientas que no son exactamente de
aprendizaje supervisado o no, por ejemplo de aprendizaje reforzado (Peeters et al.
2008).
En (Masse et al. 1992; Reisman et al. 1985; Weller et al. 1985) se reportaron altas
17
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Basados en estos hechos en (Leung et al. 2005) se realiza un anlisis de una coleccin
de genomas de 16 herpesvirus. Se identifican las regiones que contienen
conglomerados significativos de palndromos y se comparan con las posiciones
conocidas de los orgenes de las replicacin. En este momento slo se conocan
orgenes de diez herpes virus.
- Se escoge una cota superior de la longitud de los palndromos de cada uno de los
herpes virus utilizando la distancia de Wasserstein entre el proceso de
palndromos y el proceso de Poisson. Se procede entonces a buscar los
palndromos de cada uno de los herpes virus estudiados.
i + r 1
Ar = mn(Ar(i)) donde Ar(i) = j =1 Sj (Dembo y Karlin 1992)
10
Los palndromos son palabras simtricas de ADN en el sentido que ellos pueden leerse
exactamente igual que leyendo las secuencia complementarias en la direccin inversa
18
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
P (Ar w ) 1 - Exp{ - (m - r ) (1 - p + p r (r + p - rp ) ) }
donde:
= Q1
Q2
p = 1-
Q1
j =r B ( j; m, w )
m
Q1 =
j =r (-1) r + j B ( j; m, w )
m
Q2 =
m
B ( j; m, w ) = w j (1 w )
m j
j
Una aplicacin diferente en este campo, es la localizacin de las llamadas islas CpG
frecuentemente se escribe CpG para distinguir el par de bases C-G en ambas hlices
del ADN (Durbin et al. 2003). El dinucletido menos frecuente en muchos genomas es
CG, aun cuando se tenga en cuenta las probabilidades, independientes de las de C y
la G. La razn para esto, es que la Citosina es fcilmente metilada cuando precede a
19
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Guanina y el resultado del metilo - Citosina tiene una tendencia a mutar en Timina
Figura 1.1 (Delvin 2006). Por razones biolgicamente importantes el proceso de
metilacin se inhibe en cadenas pequeas del genoma, como es por ejemplo alrededor
de los promotores o 'en el principio' de las regiones de muchos genes con el objetivo
de intervenir entre otros en el proceso de replicacin y de transcripcin de los genes de
muchas especies (Durbin et al. 2003). En fin, a estas reas se les llama islas CpG (Bird
1987), y en ellas el dinucletido CG aparece frecuentemente. Un problema importante
es definir y ubicar las islas CpG en un texto genmico amplio (Durbin et al. 2003).
Muchos autores han usado islas CpG como marcadores genticos para identificar: -
sitios de rupturas y rplicas del ADN (Ponger y Mouchiroud 2002; Prioleau 2009), -
para reconocer algunas enfermedades tales como el cncer de prstata (Irizarry et al.
2008; Kron et al. 2009), sndrome Xq frgil (SXF) (Iliende et al. 2007), etc., - empleo
potencial teraputico en osteoarthritis. (Ezura et al. 2009), para mencionar algunas.
Dos de los aspectos que contaminan normalmente la informacin en cualquier rea del
saber, son la imprecisin que tiene en su expresin y la incertidumbre que puede
provocar la fuente que la proporciona. Ciertas personas tienen suficiente habilidad para
tomar decisiones correctas a partir de un conjunto de datos que vienen expresados de
forma vaga o imprecisa (borrosos) casi siempre utilizando adjetivos o adverbios como
mucho, poco, alto, bajo, normal, muy, entre otros. Tales personas pueden controlar
eficientemente un proceso tecnolgico (en un central azucarero el tradicional puntista
que controla el proceso de cristalizacin del azcar), diagnosticar enfermedades o una
20
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
enfermedad a partir de sndromes y sntomas (el mdico clnico), o tomar una decisin
acertada en una determinada empresa e institucin. El ser humano se desenvuelve con
extraordinaria facilidad a la hora de manejar este tipo de informacin; sin embargo,
cuesta trabajo explicar qu procedimientos sigue para ello (Calvio 2003).
A : X [0,1]
x X A ( x ) [0,1]
donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Existe una
degradacin del nivel de pertenencia de forma que si A ( x ) = 0.9 , el nivel de
21
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
que cumple en nuestro criterio con el 90% de las caractersticas que definen los
elementos del conjunto A. En resumen, la probabilidad indica incertidumbre estadstica
mientras que la funcin de pertenencia indica vaguedad y subjetividad.
Los tres axiomas de Cox & Jaynes, establecen, modesta, o mnimamente, que:
(X|I) > (Y|I) y (Y|I) > (Z|I) implica (X|I) > (Z|I)
(~X|I) = F((X|I))
(X,Y|I)=G((X|I), (Y|X,I))
Con estas condiciones, existe k>0, tal que P(X|I)=k (X|I) est en [0,1] y P satisface los
axiomas de probabilidad (Cox 1946). Aqu resulta F(x)=1-x, G(x,y)=xy. Adems, la
propiedad de simetra P(X,Y|I)= P(Y,X|I) del axioma 3 conduce al conocido Teorema de
Bayes y as, el razonamiento probabilstico bayesiano se convierte en la nica forma
22
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Desde la aparicin de la lgica borrosa, son incontables las aplicaciones que se han
hecho de ella en el mundo de la investigacin en general y en particular en las
matemticas. Estas aplicaciones de forma general tienden a seguir el esquema de la
figura 1.2. Algunas de las variables de entradas necesitan suavizarse, tal es el caso de la
variable x1, mientras que otras no, variable x2. Con estos datos se realizan ciertas
operaciones, descritas bajo el nombre de caja negra, y finalmente se necesita obtener
un valor duro por lo que es necesario realizar el proceso inverso a la Borrosificador,
llamado en la figura 1.2 como Desborrosificador, terminologa utilizada en (Martn del
Bro y Snchez 2005). No obstante, quizs la principal aplicacin actual sean los
sistemas de control borroso, que utilizan sus expresiones para formular reglas orientadas
al control de sistemas (Brubaker y Cedric 1992). Dichos sistemas de control borroso
pueden considerarse una extensin de los sistemas expertos, pero superando los
problemas prcticos que stos presentan en el razonamiento en tiempo real, causados
por la explosin exponencial de las necesidades de clculo requeridas para el anlisis
lgico completo de las amplias bases de reglas que manejan. Un ejemplo relevante de
los sistemas borrosos es el frenado automtico de los trenes en el Metro de la ciudad
japonesa de Sendai inaugurado el 15 de julio de 1987 (Martn del Bro y Snchez 2005).
x1 x1 Caja y y
Borrosificador Desborrosificador
x2 Negra
23
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Se define por sus lmites inferior a y superior b, y el valor modal m, tal que a < m < b.
0 si x a
(x a )
si x (a, m ]
(m a )
A (x ) =
(b x ) si x (m, b )
(b m )
0 si x b
Definida por sus lmites inferior a y superior d, y los lmites de su soporte, b y c, inferior y
superior respectivamente.
0 si (x a ) ( x d )
(x a )
si x (a, b ]
(b a )
A (x ) =
1 si x (b, c )
(d - x )
si x (b, d )
(d c )
Figura 1.4 Funcin de pertenencia trapezoidal.
Definida por su valor medio m y el valor k > 0. Es la tpica campana de Gauss. Cuanto
mayor es el valor de k, ms estrecha es la campana:
24
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
A (x ) = e k (x m ) 2
Funcin de pertenencia S
La funcin S est definida por sus lmites inferior a y superior b, y el valor m, o punto de
inflexin tal que a < m < b. El valor tpico es: m = (a+b) / 2. El crecimiento es ms lento
cuanto mayor sea la distancia a - b.
0 si x a
2
( x - a)
2 (b - a) si x (a, m ]
A (x ) = 2
( x - b)
1 - 2 (b - a) si x (m, b )
1 si x b
Figura 1.6 Funcin de pertenencia S.
1.3.2 Borrosificador
Un borrosificador establece una relacin entre los puntos, x = (x1, x2, , xn), de entrada
no borrosos del sistema, y su correspondiente conjunto borroso A en U (las variables
procedentes del exterior sern, en general, valores no borrosos y habr que
borrosificarlas 11 previamente). Se pueden utilizar diversas estrategias de
borrosificacin: (Martn del Bro y Snchez 2005).
11
Borroso, como fuzzy, en ingls es un adjetivo. En la literatura en ingls sobre lgica difusa, lo
han convertido en un verbo: to fuzzy en el sentido de convertir una variable no borrosa a
borrosa. Aqu se hace lo mismo en espaol cuando se habla de borrosificar.
25
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Borrosificador Singleton
1 si x = x
A (x ) = x U
0 si x x
Borrosificador no Singleton
1.3.3 Desborrosificador
l
l
M
y
l =1
B y
y=
M l
l =1 B y
26
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
-l
y representa el centro del conjunto borroso Gl, es decir, el punto en V donde mGl(y)
l
l =1 M l B y
M
y=
l
l =1 A l B y
M
[
B (y ) = sup x U F1 x...x
1 Fn1G1
(x, y ) A (x )].
Los mtodos no paramtricos constituyen una rama de la estadstica que estudia los
datos cuya distribucin no se ajusta a los llamados criterios paramtricos. La utilizacin
de estas tcnicas se hace recomendable cuando no se puede asumir que los datos se
ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea, como
mnimo, de intervalo. Tal es el caso de las investigaciones en el campo de la
Bioinformtica.
27
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Existen paquetes estadsticos para realizar los diseos de experimentos clsicos: DCA,
DBCA, DCL, diseos factoriales y muchos otros (Hinkelmann y kempthorne 2005;
Hinkelmann y kempthorne 2008).
abr (abr + 1)
CMT =
Total
Donde,
28
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
SC (correspondiente )
H=
CMT
9 Hacer el anlisis descriptivo de datos, por ejemplo, a travs de cubos OLAP 13,
que indiquen los posibles resultados a obtener, y que finalmente permitirn
interpretar los resultados obtenidos.
12
Statistical Package for the Social Sciences (SPSS) paquete de programas estadstico muy
usado en las ciencias sociales y las empresas de investigacin de mercado.
13
OnLine Analytical Processing (OLAP), realiza una disposicin de los datos en vectores para
permitir un anlisis rpido de los mismos.
14
Programa de propsito general utilizado en reas cientficas, de ingeniera, matemticas y
reas computacionales, tambin puede ser utilizado como un sistema de lgebra
computacional.
29
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
3. Con los resultados del Mathematica poder regresar a las salidas del SPSS para:
30
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
dems del grupo, lo cual resulta un proceso sinergtico que permite a los individuos
satisfacer de la mejor manera posible sus necesidades ms inmediatas, tales como la
localizacin de alimentos o de un lugar de cobijo. Cada organismo (partcula) se trata
como un punto en un espacio N dimensional el cual ajusta su propio vuelo de acuerdo
a su propia experiencia y la experiencia del resto de la banda. La banda (swarm)
vuela por el espacio de bsqueda localizando regiones o partculas prometedoras
(Kennedy y Eberhart 1995b; Kennedy et al. 1998).
Sean:
pg = (p1, p2, .,pN) Mejor posicin del grupo (Mejor partcula entre las k iteraciones).
Vmax Velocidad mxima que puede alcanzar una partcula, entonces Vmin= -Vmax es
la velocidad mnima que puede tener una partcula.
31
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
d. k = 1
Paso 2: Optimizar.
j. Incrementar k.
k. Ir a 2(a).
Paso 3: Terminar.
La velocidad es una funcin que est compuesta por tres sumandos. El primero es la
velocidad anterior de la partcula, conocindose a esta parte como inercia. El segundo
sumando es la diferencia entre la mejor posicin encontrada por la partcula con la
actual posicin, esta es la parte cognitiva que representa el aprendizaje de su propia
experiencia. El ltimo sumando es la diferencia entre la mejor posicin alcanzada por
un vecino, con la posicin actual de la partcula y es la parte social, que representa el
aprendizaje del grupo (Kennedy et al. 2001; Wang et al. 2007). El coeficiente de inercia
32
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
regula el impacto de la velocidad para valores grandes, significa que las partculas
deben cambiar su velocidad instantneamente y moverse lejos de su posicin segn
su conocimiento, o sea se favorece la exploracin global (global search), mientras que
para valores pequeos la partcula no har cambios bruscos, es decir la inercia sugiere
continuar el camino original, an cuando se conozca el mejor estado (fitness),
favoreciendo la exploracin local (local search).
Criptografa
Densidad y flujo de trfico
Diseo de reactores nucleares
Ecologa
Econometra
Fsica de materiales
33
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Sistemas de colas
La invencin del mtodo de Monte Carlo se asigna a Stan Ulam y a John Von
Neumann. En 1946, Ulam explic cmo se le ocurri la idea mientras jugaba un
solitario durante una enfermedad en 1946. A principios de 1947 Von Neumann envi
una carta a Los lamos en la que expuso de modo influyente tal vez el primer informe
por escrito del mtodo de Monte Carlo.
El mtodo fue llamado as por ser el principado de Mnaco, la capital del juego de
azar, al tomar una ruleta como un generador simple de nmeros aleatorios. El uso real
de los mtodos de Monte Carlo como una herramienta de investigacin, viene a la luz
con el diseo de la bomba atmica durante la Segunda Guerra Mundial.
As, las tcnicas de Monte Carlo tienen el objetivo de generar un suceso aleatorio o
pseudo-aleatorio para estudiar el comportamiento del modelo o problema tratado. Se
15
Naturalista y matemtico del siglo XVIII Georges-Louis Leclerc, Conde de Buffon, descubri
un ingenioso mtodo para la estimacin de pi basado en el lanzamiento al azar de agujas
sobre un tablero, esto permite calcular la longitud de un objeto.
34
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
El fundamento del mtodo hay que buscarlo en el teorema del Lmite Central de la
teora de probabilidades, donde el valor medio de una variable aleatoria x, puede
estimarse por el valor medio de N valores resultantes del sorteo de la variable, el cual
( )
se distribuye aproximadamente normal, cuya varianza es .
N
= p(x )dx siendo p(x) la densidad de probabilidad correspondiente a la variable
a
35
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Clase verdadera
Matriz de Confusin Total fila
Pos Neg
pos VP FP P*
Clase Predicha
neg FN VN N*
16
Indistintamente se utilizan los trminos criterio o medida para hacer referencia a los aspectos
cuantitativos o cualitativos a considerar en la evaluacin.
36
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Nombre Medida
VP + VN
Exactitud
P +N
VP
rVP o sensibilidad
P
VN
rVN o especificidad
N
FP
rFP
N
FN
rFN
P
VP
Precisin
VP + FP
2
Medida F 1 1
+
precision sensibilidad
VP * VN FP * FN
Correlacin de Mattews mcc =
(VP + FN )(VN + FP )(VP + FP )(VN + FN )
37
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
Existen otros tipos de grficos que permiten comparar clasificadores, por ejemplo las
curvas precision-recall pueden ser particularmente tiles cuando las clases son
desbalanceadas porque a diferencias de las curvas ROC ellas si son sensibles a la
distribucin de las clases. En el artculo fundamental de Fawcett se comenta
brevemente este tema pero adems hay otros artculos en que profundiza en la
relacin entre las curvas ROC y precision-recall, por ejemplo (Davis y Goadrich
2006) 17. Por la experiencia anterior de uso en Bioinformtica, comentadas en el prrafo
precedente, se decidi trabajar entonces con las curvas ROC.
17
ACM International Conference Proceeding
38
Captulo I. Las tcnicas de deteccin de conglomerados y la Bioinformtica
39
.
Existen muchas ramas de la ciencia donde los datos analizados no estn relacionados
con fechas, pero que los mismos tienen un orden que debe respetarse y resulta
importante conocer si existen conglomerados de algunas de sus categoras respetando
el orden establecido. Se hace necesario entonces modificar los mtodos anteriores
para ampliar su rango de aplicacin. Por ejemplo, en el campo de la Bioinformtica se
estudian conglomerados de ciertas subcadenas de nucletidos en el ADN de ciertas
especies. La localizacin de tales conglomerados es de inters porque puede brindar
informacin gentica. Algunas veces, la existencia como tal de esos conglomerados
pueden informar sobre diferentes alteraciones biolgicas importantes, orgenes de
replicacin, enfermedades, entre otros.
Como se ha mencionado hay varias razones que han propiciado la idea de estudio de
conglomerados de una categora de inters, no relacionada con el tiempo; pero en
estos casos es necesario (o al menos es suficiente para lograr la generalizacin ms
inmediata) que los nuevos datos estn ordenados por algn criterio. Por ejemplo si se
trabaja con secuencias de bases que representan algn gen completo, o una porcin
de ste, sera correcto asumir que tal juego de datos ya est ordenado en el orden que
aparecen los nucletidos en la estructura primaria.
Definicin 1:
40
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Por tanto se transforma dicha secuencia en una secuencia dicotmica. El valor uno se
colocar cada vez que aparezca la categora de inters: una base, un aminocido o
una subsecuencia determinada dentro de una secuencia del ADN o de protenas u otro
evento que se considere. El valor cero se asociar a todas las dems categoras,
(Langrand 2005). Los datos transformados se representan en una lnea, donde los
valores son equidistantes. El nuevo problema que surge es el de determinar si en la
secuencia formada por ceros y unos existen conglomerados de unos.
Por ejemplo, supngase que se tiene una porcin de la secuencia del gen Ataxin 2 y
que dentro de ella resulta de inters determinar si existen conglomerados de la
subsecuencia cag y de esta forma inferir una Ataxia Espino-cerebelar. La
transformacin de la secuencia original en una dicotmica se realiza como se muestra
en la Figura 2.1:
Secuencia: tcgctgaagccc cag cag cag cag cag cag cag cag cag cag
Transformacin: 000000000000 1 1 1 1 1 1 1 1 1 1
41
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Definicin 2: Sean:
T
L= : fraccin que representa la longitud total que se analiza con relacin al ancho de
t
la ventana.
= max
0 y T t
{w y , y +t } +
: estadgrafo del test.
Paso 2: Definir una ventana mvil de longitud fija y un paso (cantidad de elementos).
Calcular cantidad de unos en la ventana, inicializar mximo y acumular la
suma.
42
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Este mtodo constituye una variacin del anterior. Los datos se encuentran ordenados
a lo largo del eje de longitud y el crculo se forma uniendo el final con el inicial.
43
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
1 1 1 1 1 1 1 1
2do. Se genera el resto de la poblacin con probabilidad 0.09 de presencia de unos (32
valores):
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
0 0 1 0 1 1 0 1 0 0 1 0 1 0 1 1 0 0 1 0 1 0 0 1 0 1 0 0 1 1 0 0 0 1 0 0 1 0 0 1
Se simularon juegos de datos con tamaos de secuencias iguales a 100, 300 y 500
elementos. Los juegos de datos con verdaderos conglomerados y falsos
conglomerados se generaron de la forma explicada, con 1000 secuencias cada uno.
Para determinar si existe o no un conglomerado de unos se analiza el nivel de
significacin de los mtodos de la siguiente forma:
44
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
- Ventana mvil: vara desde el valor ms pequeo posible: (paso) hasta el valor
mayor posible: 100%.
45
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Figura 2.2 Scan Generalizado sobre una lnea en poblacin de secuencias de tamao
100, 300 y 500 elementos con verdaderos conglomerados creados con el
20% del tamao total de la secuencia.
46
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
47
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
cada uno de los pasos se explican de forma similar a las anteriores. Los siguientes
rasgos se cumplen en ambos mtodos, en las poblaciones con verdaderos
conglomerados:
Tabla 2.1: Rango significativo de las ventanas mviles dado en porciento en cada
poblacin con verdaderos conglomerados, creados con el 20% del tamao
total de la poblacin.
100 15% [15-70] [21-25] --- --- [15-51] --- --- ---
48
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Al aplicar ambos mtodos del Scan Generalizado a los juegos de datos con falsos
conglomerados no se obtienen ningn caso significativo para todas las posibles
ventanas mviles de cada juego de datos, esto implica que la curva significativa sea
una lnea que coincida con el eje que representa el tamao de la ventana mvil (y=0),
mientras que la curva relacionada con la no significacin sea una lnea paralela al eje
que representa el tamao de la ventana mvil y a una distancia de 1000 unidades de
este (y=1000). Esto ocurre para todas las secuencias con diferentes pasos, por tal
motivo no es necesario graficar las mismas.
Se deben resaltar los siguientes aspectos en el mtodo Scan Generalizado en sus dos
variantes:
18
Ver epgrafe 2.3.4
19
Cantidad de unos cercanos en la secuencia binaria es alta
49
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
(i-k + g + 1)
(g + 1) i = k-g,...,g
W (k ) = 1 i = k,...,k + t-1 (2.1)
(k + t + g i )
i = k + t,...,k + t + g-1
(g + 1)
50
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
donde:
w k = i =k-g W (k ) * S i
k + t + g-
(2.2)
donde:
- Si i<1 entonces Si = 0
- Si i > n entonces Si = 0
La formulacin matemtica del test es esencialmente la misma: el mtodo escanea
los datos usando una ventana mvil borrosa. Pero ahora, se busca el peso mximo de
la categora de inters reportado en una ventana, por lo tanto este valor puede ser real,
lo que lo diferencia del mtodo Scan Generalizado que siempre era un nmero entero.
La Figura 2.4 muestra una representacin grfica de ambas ventanas.
Ventana: 3 .5 + 3 + 0
Figura 2.4 Ventanas clsica y borrosa en el mtodo Scan sobre una lnea.
51
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Se observa en el epgrafe 2.1.1 que el valor de la significacin del mtodo Scan sobre
una lnea se basa en distribuciones de Poisson. Esta distribucin est definida para
variables aleatorias discretas, entonces para continuar utilizando las frmulas de Naus
(1982) en el clculo de la significacin hay que buscar variantes para calcular la
probabilidad puntual ( P [x = ] ) y acumulada ( P [x ] ) del nuevo estadgrafo real (*).
e - k
20
Distribucin de Poisson ( f( k, , ) = k = { 0, 1, 2, . . . } )
k!
e - n +1 e (n + 1)!
n<x< + n
= (n + 1) !
21
Distribucin Uniforme utilizada f( x ) n +1
0 en los dems casos
52
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
- Probabilidad acumulada:
(2.2)
(2.3)
[ ] * P [x
* 1
A3 = P x = 2* * r r 1] 2 (2.4)
( )
r =1+ parte _ decimal *
P [x ]
* 1
A4 = = 2* * r * P [x = r ] ((r-1)P [x r- 2]-[x r-3]) (2.5)
( )
r = 2 + parte _ decimal *
53
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
[
- Probabilidad puntual: P x = * = P int_ prob * ] [ ( )] (2.6)
[
- Probabilidad acumulada: P x * = P int_ acum * ] [ ( )] (2.7)
0.12
0.8
0.10
0.6
0.08
0.06 0.4
0.04
0.2
0.02
5 10 15 20 25 30 5 10 15 20 25 30
Finalmente la respuesta del mtodo se particiona en dos conjuntos borrosos con las
etiquetas: significativo y no significativo, siendo adecuado en este caso utilizar una
funcin de pertenencia S montona decreciente y creciente respectivamente para
ambos conjuntos borroso, por similitud a los conceptos estadsticos se definen de la
forma siguiente:
No significativo:
0 u 0.05
2
2 * u - 0.05 0.05 < u < 0.0625
0.025 (2.5)
S (u,0.05,0.0625,0.075 ) = 2
u - 0.075
1 - 2 * 0.0625 u < 0.075
0.025
1 u 0.075
54
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Significativo:
1 u 0.05
2
1 - 2 * u - 0.05 0.05 < u < 0.0625
0.025 (2.6)
S (u,0.05,0.0625,0.075 ) = 2
u - 0.075
2 * 0.0625 u < 0.075
0.025
0 u 0.075
Se aplica el mtodo del mximo para eliminar el trmino borroso y obtener una
respuesta dura (Martn del Bro y Snchez 2005).
Sn + j = S j : para j = 1 hasta t -1
55
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Si i<1 entones Si = Sn i
Si i > n + t -1 entonces Si = Si n
De la misma forma que para el mtodo Scan sobre una lnea, se definen tres formas
diferentes de calcular la significacin del test:
Del mismo modo, la respuesta del mtodo se particiona en dos conjuntos borrosos
con las etiquetas: significativo y no significativo. Cada uno de ellos tiene una funcin
de pertenencia S como muestra la Figura 2.8.
56
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Los resultados obtenidos para las tres formas de calcular la significacin son similares,
lo que se muestra en la Tabla 2.2 de los resultados del rea bajo la curva ROC de cada
uno ellos para cada juego de datos. Por ello se decide mostrar slo los grficos de los
resultados utilizando las forma de interpolacin para calcular la significacin con
ventana mvil suavizada cero (Scan Generalizado), dos, cuatro y cinco, para la
discusin de los resultados separamos los juegos de datos en verdaderos y falsos
conglomerados de ambas variantes de los mtodos Scan Borroso.
57
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Figura 2.9 Scan Borroso sobre una lnea en secuencias de tamao 100, 300 y 500
elementos con verdaderos conglomerados creados con el 20% del
tamao total de la secuencia.
Figura 2.10 Scan Borroso sobre una crculo en secuencias de tamao 100, 300 y 500
elementos con verdaderos conglomerados creados con el 20% del
tamao total de la secuencia.
Las curvas que representan al conjunto significativo en cada una de los juegos de
datos en los diferentes pasos analizados se caracterizan por:
58
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
- Las curvas con ventana mvil de mayor suavidad tienen mayor frecuencia de
secuencias que pertenecen al conjunto borroso significativo que las curvas con
ventanas de menor suavidad fundamentalmente para los valores de la ventana
mvil pequeo.
- En el mtodo Scan Borroso sobre una lnea, las curvas del conjunto
significativos tienen un comportamiento ms brusco a medida que aumenta el
paso.
En las Figuras 2.11 y 2.12 se observan los resultados de los mtodos Scan Borroso en
los juegos de datos de la secuencias de falsos conglomerados con secuencias de
diferentes tamaos (100, 300 y 500). En todos los casos las curvas que representa la
frecuencia absoluta de las ventanas mviles que representa al conjunto borroso
significativo se caracterizan por:
- Para suavizado menor o igual a tres son rectas que tienden a confundirse con
el eje de las abscisas (y=0).
Para los casos particulares donde el paso es 15 25% las ventanas mvil comienzan
en dichos valores, por lo tanto para estos casos los mtodos Scan Borroso con falsos
conglomerados tiende a detectar correctamente a la mayora de los casos, por tal
59
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Figura 2.11: Scan Borroso sobre una lnea con de falsos conglomerados en
secuencias de tamao 100, 300 y 500 elementos para paso 1%.
Figura 2.12: Scan Borroso sobre un crculo con falsos conglomerados en secuencias
de tamao 100, 300 y 500 elementos para paso 1%.
Las curvas que representa al conjunto borroso No Significativo en cada una de los
juegos de datos con falsos conglomerados tiene comportamiento opuesto a las curvas
significativas, es decir son rectas que se confunden con y=1000, excepto para el paso
1% para suavizados mayores a tres son curvas crecientes que convergen rpidamente
a la recta y=1000.
60
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
aadindose las tres formas del clculo del Scan Borroso (Aproximado, Distribucin de
Poisson y Uniforme e Interpolacin de polinomio), las cuales se muestran en un
resumen con respecto al suavizado en la Tabla 2.2.
Tabla 2.2: rea por debajo de la curva ROC en secuencias de tamao 100, 300, 500.
Usando las tres variantes para el clculo de la significacin.
Mtodo Scan
Secuen
cia de Paso Suaviza Sobre una lnea Sobre un crculo
tamao do Poisson Poisson
Aprox. Polinm. Aprox. Polinm.
Uniforme Uniforme
0 0.880 0.880 0.880 0.735 0.735 0.735
2 0.905 0.905 0.915 0.765 0.765 0.770
1%
4 0.908 0.914 0.912 0.778 0.780 0.777
5 0.888 0.901 0.892 0.772 0.777 0.774
0 0.831 0.831 0.831 0.733 0.733 0.733
2 0.901 0.895 0.895 0.750 0.744 0.744
100 15%
4 0.901 0.901 0.901 0.750 0.744 0.744
5 0.885 0.883 0.883 0.750 0.744 0.750
0 0.776 0.776 0.776 0.697 0.697 0.697
2 0.789 0.789 0.789 0.717 0.711 0.711
25%
4 0.796 0.796 0.796 0.717 0.711 0.711
5 0.791 0.793 0.793 0.717 0.711 0.711
0 0.930 0.930 0.930 0.840 0.840 0.840
2 0.940 0.940 0.940 0.855 0.855 0.855
1%
4 0.947 0.949 0.947 0.865 0.865 0.863
5 0.939 0.945 0.940 0.863 0.863 0.863
0 0.884 0.884 0.884 0.826 0.826 0.826
2 0.895 0.895 0.895 0.831 0.831 0.831
300 15%
4 0.901 0.901 0.901 0.831 0.831 0.831
5 0.900 0.900 0.900 0.831 0.831 0.831
0 0.829 0.829 0.829 0.776 0.776 0.776
2 0.836 0.836 0.836 0.783 0.783 0.783
25%
4 0.842 0.842 0.842 0.783 0.783 0.783
5 0.840 0.840 0.842 0.783 0.783 0.783
0 0.945 0.945 0.945 0.875 0.875 0.875
2 0.950 0.950 0.950 0.880 0.880 0.880
1%
4 0.955 0.955 0.954 0.890 0.890 0.889
5 0.950 0.952 0.949 0.889 0.890 0.888
0 0.901 0.901 0.901 0.866 0.866 0.866
2 0.907 0.907 0.907 0.866 0.872 0.872
500 15%
4 0.919 0.919 0.919 0.872 0.872 0.872
5 0.918 0.918 0.918 0.872 0.872 0.872
0 0.842 0.842 0.842 0.836 0.836 0.836
2 0.849 0.849 0.849 0.842 0.842 0.842
25%
4 0.855 0.855 0.855 0.842 0.842 0.842
5 0.855 0.855 0.855 0.842 0.842 0.842
61
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
En la Tabla 2.2 los siguientes rasgos se cumplen en ambos mtodos y en cada una de
los diferentes tamaos de secuencias:
62
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
estudios demuestran que los mtodos Scan de forma general responden muy bien ante
falsos conglomerados. La respuesta de no existencia de conglomerados en esas
secuencias es correcta casi en el 100% de los casos, con independencia de los valores
de los parmetros utilizados, slo se incluye falsos positivos para ventanas mvil de
longitud muy pequea cuando el grado de suavizamiento es alto.
Las dificultades surgen al analizar secuencias en las que exista al menos una
aglomeracin, donde el mtodo Scan Borroso supera al mtodo clsico, pero falla
cuando se consideran tamaos de ventanas grandes. Se conoce el comportamiento de
los parmetros en secuencias relativamente pequeas, por lo que es necesario realizar
un anlisis de diseo experimental bifactorial no paramtrico para analizar si los
parmetros se comportan de forma similar cuando las secuencias son extremadamente
grandes, que son los casos frecuentes en Bioinformtica. Es lgico que si la longitud
de secuencias binarias es extremadamente extensa y realmente posee al menos un
conglomerado se hace difcil encontrar los parmetros capaces de obtener dicho
resultados, para ayudar al investigador se ha ideado utilizar un algoritmo bioinspirado
que facilite dicha tarea.
63
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Con los resultados obtenidos hasta este epgrafe, en los mtodos Scan en cualquiera
de sus variantes las curvas de desempeo estn por encima o alrededor del 50% de
elementos bien clasificados, fundamentalmente cuando el paso es pequeo las curvas
de desempeo del clasificador con respecto al parmetro ventana mvil tiene un
comportamiento cuadrtico para la primera mitad de la poblacin, para la segunda
mitad de la poblacin el desempeo es pequeo y va decreciendo hasta ser
equivalente al 50% a medida que la ventana se acerca al final de la secuencia
(Rodrguez et al. 2007b).
Se realizan varios experimentos con los factores tamao de ventana y paso, con el
objetivo de verificar como influyen los factores en cada experimento por separado
(Daz et al. 2009). El factor paso influye en el valor de comienzo del factor ventana
mvil, por lo que los niveles de los factores de cada experimento son detallados en la
Tabla 2.3.
64
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Figura 2.13: Grfico del factor paso contra el factor ventana mvil en el Scan sobre
una lnea.
65
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Figura 2.14: Grfico del factor paso contra el factor ventana mvil en el
Scan sobre un crculo.
En el ambas variantes del Scan para cada poblacin la variante suavizada obtiene
mejores resultados que la variante clsica, como para todos los niveles del factor
ventana mvil la variante borrosa obtiene mejores resultados que la variante clsica,
destacndose que el nivel inferior de la ventana en la variante suavizada es la que
obtiene un notable aumento de los resultados comparados con los restantes niveles,
estos resultados concuerdan con los planteados en (Rodrguez et al. 2008a; Rodrguez
et al. 2008c; Rodrguez et al. 2009).
66
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
- Los mtodos tienden a mantener respuestas similares para valores pequeos del
factor paso, pero a medida que el paso aumenta disminuye la respuesta de los
mtodos, siendo estas diferencias significativas cuando el paso es grande.
67
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
que se caracterizan por una explosin de datos y muy poca teora, como es el caso de
la Bioinformtica.
pik Es el mejor vector (mejor ventana mvil, mejor paso, mejor suavizado) de la
partcula i, hasta la iteracin k.
pgk Es el mejor vector (la mejor ventana mvil, el mejor paso, el mejor suavizado)
hasta la iteracin k.
68
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Se comprob la estabilidad del PSO en varias corridas con las mismas secuencias y
parmetros diferentes.
2.4.3 Mtodos de Monte Carlo combinado con el PSO y los mtodos Scan
En este epgrafe se explica el uso de la simulacin de Monte Carlo combinada con los
algoritmos presentados con anterioridad, para tener una certeza mayor en la respuesta
final.
Paso 3: Terminar.
De esta forma se garantiza que las secuencias generadas sean similares a la original,
pues se diferencian de ella en un porcentaje pequeo de sus valores.
69
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
La aplicacin del mtodo de Monte Carlo fortalece los resultados que el PSO puede
hallar, pero aumenta de manera notable el tiempo de ejecucin de los algoritmos,
sobre todo en caso de secuencias largas.
- Paso = 1
Si hay duda en los resultados utilizar Scan Borroso segn caso con:
- Suavizado = 3 4
Si hay duda en los resultados utilizar Scan Borroso en ambas variantes segn
caso y aplicar:
70
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
Paso 3: Al mover la ventana mvil con un paso fijo a lo largo de la lnea de longitud y
realizar tres operaciones independientes en cada momento su orden de
complejidad es un (t*(T-t)/p).
71
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
T t
C(t , p ) = t 1 + con 1 p t T
p
Cuyos valores extremos son:
C(1,1) = T; mnimo.
C(T,T) = T; este valor es despreciado porque est fuera de la fronteras del problema.
C(T,1) = T; mnimo.
T + 1 (t + 1)
2
C , 1 = ; mximo.
2 4
Los valores mnimos se corresponden con los valores extremos de los parmetros los
cuales no obtienen una adecuada solucin (observe Figura 2.2), mientras que el valor
mximo es precisamente el de mayor complejidad algortmica.
Esto significa que hay que buscar un compromiso entre ambos factores a la hora de
determinar el tamao de la ventana y del paso. Las pruebas realizadas demuestran
que de forma general la mejor opcin para la seleccin de los parmetros del mtodo
le corresponde a los valores alrededor del 20 y 25 % de T como la ventana mvil y el
paso igual a uno, en dependencia de cmo se encuentra distribuida la secuencia
binaria.
En este mtodo es necesario aadir al final de la secuencia los elementos del inicio,
por lo que solamente vara la cantidad de elementos a analizar de T a T + t - 1,
quedando el nmero de operaciones expresado de la forma t * (1+ (T-1)/p); lo que no
afecta el orden de la complejidad temporal analizada.
Este mtodo utiliza una ventana suavizada descrita previamente en el epgrafe 2.3.1,
que provoca que el nmero de operaciones para cada ventana se incremente de t a
t+2g. Del epgrafe 2.3.3.2 se obtiene que si el grado de suavizado es grande se
72
Captulo II. Nuevos mtodos de deteccin de conglomerados. Ajuste de sus parmetros
incluyen muchos falsos positivos, y el valor de g debe ser pequeo por lo que su
complejidad se aproxima a la del Scan Generalizado Lineal.
73
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
74
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
9 Los datos de entrada son ficheros textos que poseen una secuencia binaria sin
restricciones de longitud.
75
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Los orgenes de replicacin 22 son los lugares del cromosoma donde se inicia la
replicacin 23 de las cadenas de ADN. Debido a que la replicacin del ADN es el paso
central en la reproduccin de muchos virus y bacterias, entender los mecanismos
moleculares involucrados en este proceso es de gran importancia en las estrategias y
vas para controlar el crecimiento y propagacin de los mismos (Delecluse y
Hammerschmidt 2000). Por ejemplo, para el virus de Epstein-Barr, las rplicas
originales han mostrado la asociacin con protenas celulares que regulan la iniciacin
de la sntesis del ADN en las clulas humanas (Sugden 2002). Esto sugiere que estas
rplicas originales tambin son importantes para estudiar posibles mecanismos de
infeccin de clulas de diferentes organismos. El conocimiento de las localizaciones de
las rplicas originales reforzar el desarrollo de agentes antivirales, bloqueando la
replicacin del ADN viral o interviniendo en el proceso de infeccin.
Debido a que los orgenes de la replicacin del ADN son considerados lugares de gran
importancia para regular la replicacin del genoma en general, se han usado extensos
procedimientos en los laboratorios para buscar dichos orgenes en varios organismos
(Hamzeh et al. 1990; Newlon y Theis 2002; Zhu et al. 1998). Con la disponibilidad
creciente de la secuenciacin del ADN del genoma, ya se ha reconocido el valor de
usar los mtodos computacionales para predecir situaciones posibles de los orgenes
de la replicacin antes de hacerse los experimentos, aunque hasta ahora no existe
ningn esquema para la prediccin en el ADN en general. El xito de la prediccin
22
Determinada secuencia de nucletidos a partir de la cual se desarrolla una horquilla de
replicacin que dar lugar a dos cadenas idnticas de ADN.
23
Mecanismo que permite al ADN duplicarse, obtenindose dos "clones" de la molcula. Esta
duplicacin se produce de acuerdo con un mecanismo semiconservador donde cada nueva
doble hlice contiene una de las cadenas del ADN original.
76
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
La Figura 3.1 (a) muestra que los palndromos son palabras simtricas de ADN, en el
sentido que ellos pueden leerse exactamente igual que al leer las secuencias
complementarias en la direccin inversa. Es importante sealar (Figura 3.1 (b)) que la
longitud en un palndromo de ADN tiene, necesariamente, que ser un cordn de
nucletidos par (2L), para que cada porcin L del cordn pueda tener su complemento.
77
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
(a)
5 ...... GCAATATTGC ......... 3
(b)
i-L+1 i i+1 i+L
a1 a2 ..... aL aL+1 ..... a2*L-1 a2*L
(a) Se muestra una secuencia palndromo de nucletidos con sus dos cuerdas
complementarias de ADN, que se lee en las direcciones de 5 a 3 como lo
sealan las flechas. Los segmentos se leen exactamente igual en ambas cuerdas.
Las bases de datos comprenden todas las secuencias completas del genoma de la
familia del herpesvirus, cargadas del GenBank del sitio NCBI 24. En la Tabla 3.1 se
muestra el listado con cada nombre del virus y su abreviatura, identificacin de la base
de datos del GenBank, longitud de la secuencia del genoma en nmero de bases, las
probabilidades pA, pC, pG, pT de las cuatro bases de nucletidos del genoma y la
longitud mnima (L) de los palndromos obtenida por el lmite superior de la distancia de
Wasserstein, de forma tal, que cada secuencia genmica puede lograrse por un
24
National Center for Biotechnology Information, EE.UU.
78
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
De las anotaciones de las secuencias del GenBank y las referencias de los mapas
genticos y otros artculos biomdicos (Masse et al. 1992) se compilaron una lista de
orgenes de replicacin en 10 de los 16 herpesvirus. stos incluyen un herpesvirus en
la vaca, dos en el caballo, y siete en los humanos. Estos virus se han estudiado ms
que los otros debido a su importancia agrcola y mdica. Las localizaciones de estos
orgenes muestran en la Tabla 3.2, indicndose los clusters significativos con el
nmero de palndromos que contienen y por ltimo los resultados cercanos entre las
regiones de rupturas y los clusters significativos encontrados. Las filas de la Tabla 3.2
indican cada uno de los genomas de los 16 herpesvirus, en la parte superior de cada
fila estn los resultados obtenidos por Leung (2005) y en la parte inferior se encuentran
los resultados obtenidos por el Scan Generalizado sobre una lnea.
Leung (2005) al usar el r-Scan en los genomas de los herpesvirus HSV1 y VZV no
encuentra clusters significativos que contengan a los orgenes de replicacin, pero
plantea que en un anlisis ms detallado estos sitios se encuentran dentro de
palndromos de longitudes grandes. Al aplicar en mtodo Scan Generalizado se
encontraron clusters significativos en estos dos genomas que coinciden con los
orgenes de replicacin.
79
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
80
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Nota: unidad de medida que representa 1% de la longitud del genoma. Esta distancia
es calculada del punto medio de la regin del cluster, al punto medio ms
cercano al origen de replicacin.
En la Tabla 3.3 se resumen los resultados de ambos mtodos en los diez herpesvirus
que se conocen los orgenes de replicas, se observan porcentajes ligeramente
superiores a favor del Scan Generalizado.
Tabla 3.3: Resultados de utilizar los mtodos rScan y Scan Generalizados en los 10
herpesvirus donde se conocen los orgenes de la replicacin.
81
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Generalizado y Borroso.
Tabla 3.4: Resultados obtenidos con el Scan sobre un crculo y parmetro paso igual
uno
Si se supone que no se conoce un valor adecuado para los parmetros de los mtodos
Scan y que se desea de la misma forma, determinar la existencia de conglomerados de
sitios Dam dentro del genoma de la E. coli.
Los resultados de la aplicacin del mtodo Scan con el PSO aparecen recogidos en la
Tabla 3.5. Puede observarse que en ambos casos, los valores hallados para el tamao
de la ventana son inferiores a 245, pero en ambos se demuestra la existencia de
conglomerados de sitios Dam que era el objetivo fundamental de la aplicacin. Estos
conglomerados formados en cada caso estn alrededor de los pares de bases
82
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
4002141 4002422.
Nota;
- S* grado de suavizado utilizado en el Scan Borroso.
83
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Secuencias muy cortas o muy similares pueden alinearse manualmente. Pero los
problemas ms interesantes necesitan alinear secuencias largas, muy variables y
extremadamente numerosas que no pueden ser alineadas por humanos. Existen
diferentes productos de software en Internet que realizan el alineamiento de
secuencias, como el Mega4 (Tamura K 2007) y el ClustalW (Thompson et al. 1994).
84
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Tabla 3.6: Resultados del virus de la influenza A H1N1 en 167 genomas con longitud
de 14158 pares de bases
85
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Como puede apreciarse, los resultados fueron altamente significativos en todos los
casos. La cantidad de gaps oscila de 435 a 914 y alrededor del 68% de la secuencias
tienen 10 o ms conglomerados cada uno de ellos con 20 o ms gaps consecutivos.
En ambos casos se obtuvieron resultados similares a los del genoma completo, lo cual
demuestra que los conglomerados pueden aparecer efectivamente en las mutaciones
de estos sitios de antignicos.
Los Suicidios e Intentos Suicidas no son enfermedades como tal, se definen como
trastornos de la conducta y estn incluidas en las Enfermedades de Declaracin
86
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Obligatoria (EDO). En cualquier caso, result muy interesante para los mdicos
especialistas que participaron en esta investigacin su inclusin en el estudio. En lo
adelante se utilizar el trmino enfermedades de una forma general, para referirse
tambin a ellos, sin que eso afecte la claridad del objetivo de este epgrafe.
Los datos utilizados fueron obtenidos de las bases de datos de mortalidad y morbilidad
de la direccin Provincial de Salud en Villa Clara, correspondiente al municipio de
Cifuentes. En el caso de la morbilidad se realiz un trabajo mucho ms intenso pues
estos datos no estn informatizados, slo se encuentran archivadas sus tarjetas de
EDO.
- El EpiDet (Casas 2003), recibiendo como datos de entrada las fecha de los
pacientes de una enfermedad en el perodo analizado.
Con ambos softwares se obtienen los mismos resultados, pero con el Optimus se
puede utilizar el Scan Borroso sobre una lnea para identificar la posicin en tiempo en
que se encuentran los enfermos que favorecen a la formacin de focos de
enfermedades. Es esta la razn por la cual slo se har referencia a los resultados
finales sin referirnos al software utilizado.
Como parte de este trabajo, se decidi formalizar un conjunto de pasos que sirven de
gua a los epidemilogos para la correcta aplicacin de los mtodos Scan en la
deteccin de conglomerados de enfermos. A continuacin se describen y se comentan
87
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Paso 2: Determinacin de los valores de los parmetros del mtodo Scan (Se
recomienda que sean varios valores).
Paso 3: Aplicar el mtodo Scan Clsico. Si los resultados coinciden para todos
los valores de los parmetros seleccionados, concluir.
Paso 4: Si hay dudas (no coincidencia de los resultados para todos los valores
de los parmetros seleccionados), entonces aplicar el mtodo Scan
Borroso. En base a los resultados que arroje este ltimo mtodo,
concluir.
Para realizar el paso 1 debe consultarse las bases de datos de mortalidad y morbilidad
existentes en los departamentos de estadsticas de salud en la forma ya explicada con
anterioridad.
Parmetros
Ventana Mvil Pasos
60
30
30 15 7
15
Figura 3.2: Valores de los parmetros de Scan aplicado en cada una de las
enfermedades.
88
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Al paso 4 se llega si existen dudas, es decir si los resultados no coincidieron para todas
las configuraciones de parmetros seleccionadas. En estos casos se debe aplicar el
mtodo Scan Borroso. Recurdese que este mtodo tiene un parmetro adicional: la
longitud de la parte borrosa de la ventana mvil.
Al aplicar el mtodo Scan Borroso los resultados pueden seguir discrepando unos con
otros. En este paso es crucial realizar el anlisis con los especialistas. Slo una opinin
conjunta de los resultados estadsticos unido a los criterios de epidemilogos ser
definitiva (Daz 2010).
89
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
significativos mientras que para otros no. Por lo que se decidi aplicar adems
el mtodo Scan Borroso para llegar a conclusiones ms certeras.
Las Enfermedades del Corazn son la primera causa de muerte en Cuba. Producidas
por un desbalance entre la oferta y la demanda de oxgeno al miocardio, debido a
lesiones orgnicas (aterosclerosis) o funcionales (espasmo) y que provocan varios
cuadros, desde fenmenos asintomticos (isquemia silente, disfuncin diastlica) hasta
cuadros de necrosis miocrdica extensa (Penichet et al. 2007).
Se observar que en el anlisis general de todos los casos que se muestra en la Tabla
3.7, la tcnica del Scan Clsico expresa que existen la presencia de conglomerados
para todos los valores de los parmetros considerados, excepto para dos juegos de
parmetro, corroborndose la presencia de conglomerados en los mismos utilizando el
Scan Borroso con un suavizado no superior a dos das, es decir la disposicin de los
pacientes en el tiempo favorece a la formacin de los conglomerados.
90
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Tabla 3.7 Resultados obtenidos con los mtodos Scan para las Enfermedades del
Corazn.
Scan sobre una lnea
General Factores (Sexo)
Vent. M.
Paso
La figura 3.3 muestra una representacin grfica de los datos procesados. Pueden
apreciarse picos con una incidencia ms elevada de la enfermedad alrededor de los
aos 1997 - 1998 y 2004 - 2005.
30
25
20
Pacientes
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Aos
En los aos 1997 y 1998, se increment la mortalidad por Enfermedades del Corazn,
segn los especialistas en Higiene y Epidemiologa del municipio pues coincide con la
91
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
etapa del perodo especial, donde se modificaron los estilos de vida de la poblacin por
la difcil situacin econmica que existi en el pas durante esa fecha, se increment el
consumo de grasa de origen animal, disminuy la realizacin de ejercicios fsicos, y
aument el estrs, todo esto condujo a un aumento de la incidencia de hipertensin
arterial, que constituyen los principales factores de riesgo de esta enfermedad.
En la tabla 3.7 se hace tambin el anlisis separado para ambos sexos. Se sigue la
misma metodologa: en los casos en los que el Scan Clsico no brinda resultados
satisfactorios, se aplica el mtodo Scan Borroso, concluyendo que existe un foco de
mortalidad masculina para todos los juegos de parmetros, no ocurriendo lo mismo
para el sexo femenino para todos los juegos de parmetros.
30
25
20
Pacientes
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Aos Masculino Femenino
Figura 3.4 Distribucin de la mortalidad por Enfermedades del Corazn, segn sexo,
en Cifuentes en el perodo 1997 2007.
92
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
mortalidad masculina alrededor de los aos 1997 al 1998 y del 2004 al 2005, lo que se
puede apreciar en el grfico de series de tiempo de las incidencias por sexo que
aparece en la figura 3.4.
Tumores Malignos
La Tabla 3.8 muestra los resultados de la aplicacin de los mtodos Scan para la
deteccin de conglomerados a los casos de mortalidad por Tumores Malignos en el
perodo comprendido entre los aos 1997 y 2007. Al igual que en las Enfermedades
del Corazn en la poblacin general del municipio existen conglomerados para todos
los juegos de parmetros al utilizar el Scan Clsico y en sus excepciones el mtodo del
Scan Borroso lo corrobora con un suavizado de 7 o menos das, en la Figura 3.5, se
observa evidentemente un foco de mortalidad por cncer alrededor de los aos 2002,
que son precisamente los picos que estn detectando los mtodos aplicados.
93
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Tabla 3.8. Resultados obtenidos con los mtodos Scan para la mortalidad por Tumores
Malignos.
Scan sobre una lnea
General Factores (Sexo)
Vent. M.
Paso
30
25
20
Pacientes
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Aos
94
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Al analizar la mortalidad del cncer por sexo se observa en la Tabla 3.8. y en la Figura
3.6 que hay una tendencia a existir un foco de mortalidad en los masculinos alrededor
de los aos 2002 y principios del 2003, no existiendo evidencias marcadas de
conglomerados en el sexo femenino.
30
25
20
Pacientes
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Intentos Suicidas
El Intento Suicida o parasuicidio es definido por la OMS, "como un acto con una
consecuencia no fatal en la cual el individuo realiza deliberadamente una conducta no
habitual con amenaza de muerte, que sin la intervencin de otros le causar autodao,
o ingiere una sustancia superior a las dosis teraputicas generalmente reconocidas y
cuyo objetivo es producir cambios que l o ella desean a travs de las consecuencias
fsicas y psquicas reales o esperadas cercanas a la muerte" (Guibert y Torres 2001).
95
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Tabla 3.9. Resultados obtenidos con los mtodos Scan para la morbilidad por Intentos
Suicidas.
Scan sobre una lnea
General Factores (Sexo)
Vent. M.
Paso
25
Pac ientes
20
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Aos
96
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
6
Pa cie n te s
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Aos
25
Pacientes
20
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
97
Captulo III. Aplicaciones a problemas Bioinformticos y Biomdicos
Los Intentos Suicidas han tenido un comportamiento habitual en los aos analizados,
un ligero incremento de estos casos estuvo relacionado con los sndromes depresivos
en el anciano que vive solo, siendo ms evidente en el sexo femenino pues est
demostrado por estudios realizados que en las mujeres son ms frecuentes los
intentos suicidas y en los hombres el suicidio.
Adems los tamaos de las ventanas mvil que determinan los Epidemilogos son
relativamente muy pequeos, menores al 2% del tamao total de la secuencia, lo que
implica en general segn las teora, mejores resultado del Scan Borroso.
98
CONCLUSIONES Y RECOMENDACIONES
99
Conclusiones y recomendaciones
100
REFERENCIAS BIBLIOGRFICAS
Aldrich, T. y Wanzer, D. (1993). "'Cluster', The agency for Toxic Substances and
Disease Registry Division of Health Studies."
Anderson, C. (2008). "The End of Theory: The Data Deluge Makes the Scientific
Method Obsolete " Wired 16(7). www.wired.com/science/discoveries/magazine/16-
07/ pb_theory.
Bailey, N. T. J. (1975). "The mathematical theory of infectious diseases and it's
applications." Charles Griffin & Company Limited, Second Edition.
Baldi, P. y Brunak, S. (2001). Bioinformatics.. the Machine Learning Approach.
Cambridge, England, The MIT Press.
Baldi, P. y Pollastri, G. (2003). "The principled design of large-scale recursive neural
network architectures--dag-rnns and the protein structure prediction problem." The
Journal of Machine Learning Research 4: 575-602.
Barbour, A. D., Holst, L. y Janson, S. (1992). Poisson Approximation, Clarendon Press,
Oxford.
Beers, H., Porter, R. y Jones, T. (2007). "Hematologa y oncologa." El manual Merck.
E. espaola 1119.
Beielstein, T., Parsopoulos, K. E. y Vrahatis, M. N. (2002). Tuning PSO parameters
through sensitivity analysis. , Technical Report of the Collaborative Research
Center, University of Dortmund: http://sfbci.cs.uni-dortmund.de/home/English/Publi.
Bell, G., Hey, T. y Szalay, A. (2009). "Computer science. Beyond the data deluge."
Science 323(5919): 1297-1298.
Benson, D. A., Karsch-Mizrachi, I., Ostell, O. y Wheeler, D. L. (2005). "GenBank."
Nucleic Acids Research 33.
Bird, A. (1987). "CpG islands as gene markers in the vertebrate nucleus." Trends in
Genetics 3: 342347.
Bonet, I., Grau, R., Rodrguez, A. y Garca, M. M. (2007). Prediccin de splice sites
usando redes neuronales recurrentes. XII Convencin y Expo Internacional de
Informtica, INFORMTICA 2007, La Habana.,
Bonet, I., Rodrguez, A., Grau, R. y Garca, M. M. (2008). Combining classifiers for
Bioinformatics. Second International Workshop on Bioinformatics, Cuba- Flanders,
2008, Villa Clara,
Boutros, P. (2006). "Why biologist cant count?: An overview of the gene-finding
problem." Hypoth: 26-29.
Brender, J., Talmon, J., Egmont-Petersen, M. y McNair, P. (1994). Measuring quality of
101
Referencias bibliogrficas
102
Referencias bibliogrficas
103
Referencias bibliogrficas
104
Referencias bibliogrficas
105
Referencias bibliogrficas
106
Referencias bibliogrficas
11(2).
Lu, L., Jia, H., Drg, P. y Li, J. (2007). "The human genome-wide distribution of DNA
palindromes " SpringerLink 7(3): 221-227.
Lukasiewicz, J. (1910). "O zasadzie wylaczonego srodka." Przegld Filozficzny 13: 372-
373.
Mahamed, G. H. O., Engelbrecht, A. P. y Salman , A. (2005). Dynamic Clustering using
PSO with Application in Unsupervised Image Classification. . In proceedings of the
World Academy of Science, Engineering and Technology,
Marrero-Ponce, Y., Meneses-Marcel, A., Castillo-Garit, J. A., Machado-Tugores, Y.,
Escario, J. A., B:A., G., Montero, D., Nogal-Ruiz, J. J., Arn, V. J., Martnez-
Fernndez, A. R., Torrens, F., Rotondo, R., Ibarra-Velarde, F. y Alvarado Ysaias,
J. (2006). "Predicting antitrichomonal activity: a computational screening using
atom-based bilinear indices and experimental proofs." Bioorganic & medicinal
chemistry 14(19): 6502-24.
Martin, A. W. (1981). "A Generalised Scan Statistic Test for the Detection of Clusters."
International Journal of Epidemiology. 10.(3): 289-293.
Martn del Bro, B. y Snchez, A. (2005). Redes Neuronales y Sistemas Difusos.
Mxico, Alfaomega.
Martnez-Piedra, R., Loyola-Elizondo, E., Vidaurre-Arenas, M. y Njera-Aguilar, P.
(2004). "Paquetes de Programas de Mapeo y Anlisis Espacial en Epidemiologa y
Salud Pblica." Boletn Epidemiolgico OPS 25(4): 1-9.
Masse, M. J., Karlin, S., Schachtel, G. A. y Mocarski, E. S. (1992). "Human cytomegalo-
virus origin of DNA replication (oriLyt) resides within a highly complex repetitive
region." Proc. Natl. Acad. Sci. USA. 89(52465250.).
Montgomery, D. C. (2008). Diseo y Anlisis de Experimentos. Mxico, Limusa.
Mott, M. L. y Berger, J. M. (2007). "DNA replication initiation: mechanisms and
regulation in bacteria." Nat. Rev. Microbiol. 5(5): 34354.
Nagarwilla, N. (1996). "A Scan statistic with a variable window." Stat. in Med. 15: 845-
50.
Naus, J. I. (1965). "The distrution of the size of the maximum cluster of points on a line."
Journal of the American Statistical Association 60: 532-538.
Naus, J. I. (1982). "Approximations for distributions of Scan statistics." Journal of the
American Statistical Association 77(No. 377): 177-183.
Neiman, P., Elsaesser, K., Loring, G. y Kimmel, R. (2008). "Myc Oncogene-Induced
Genomic Instability: DNA Palindromes in Bursal Lymphomagenesis." PLoS Genet
4(7).
107
Referencias bibliogrficas
108
Referencias bibliogrficas
109
Referencias bibliogrficas
110
Referencias bibliogrficas
111
Produccin cientfica del autor sobre el tema de la tesis
1. Casas, G.M., Rodrguez, L., Grau, R., Cardoso, G., Chvez, M.C. (2005)
Metodologa general para la Validacin de tcnicas conglomerados. Boletn de la
Sociedad Cubana de Matemtica y Computacin. ISSN 17286042. Vol. 3 No.1, 2005.
2. Rodrguez, L., Casas, G.M., Grau, R., Cardoso, G., Ortega, S. Pupo, M. (2006)
Scan Statistics. Bioinformatics Applications., Proceedings of First International
Workshop on Bioinformatics Cuba-Flanders2006, Santa Clara, Feb. 7-10, ISBN:
959-250-239-0.
3. Pupo, M., Rodrguez, L., Phan, D. (2006) An amino acid property-based semantic
analysis of a stochastic sequence of amino acids using dynamic complex systems
concepts. Proceedings of First International Workshop on Bioinformatics Cuba-
Flanders2006, Santa Clara, Feb.7-10, ISBN: 959-250-239-0
4. Rodrguez, L., Casas, G.M., Grau, R., Cardoso, G. (2006) Aplicacin de los
mtodos Scan en Bioinformtica. Memorias de UCIENCIA 2006. II Conferencia
Cientfica de la Universidad de Las Ciencias Informticas. III Taller de
Bioinformtica de la UCI., La Habana, Julio 4-6. ISBN: 959-16-0463-7.
5. Rodrguez, L., Casas, G.M., Grau, R. (2007) Validacin del mtodo Scan con
verdaderos y falsos conglomerados. Memorias de COMPUMAT 2007. X Congreso
Nacional de Matemtica y Computacin. Holgun Noviembre 21-23. ISBN: 1728-
6042.
6. Rodrguez, L., Casas, G.M., Grau, R., Martinez, Y. (2008) Fuzzy Scan Method to
detect Clusters Proceedings of Second Workshop on Bioinformatics Cuba
Flanders, February, 2008. Puplicado en la revista International Journal of
Biomedical Sciences, www.waset.org Spring Vol.3: 111 -115. 2008.
7. Rodrguez, L., Casas, G.M., Grau, R., Pupo M. (2008) Generalizacin del mtodo
Scan. El mtodo Scan Lineal Borroso. SIMMAC XVI. Simposio Internacional de
Mtodos Matemticos Aplicados a las Ciencias. Costa Rica. Feb. 19-21. Trabajo
aceptado para el evento.
112
Produccin cientfica del autor sobre el tema de la tesis
8. Rodrguez, L., Casas, G.M., Grau, R. (2008) Approximations for the distribution of
Fuzzy Scan Statistics. ICOR 2008. 8th International Conference on Operations
Research. Havana. February 25-29. Publicado en Revista Investigacin
Operacional Vol. 30, No.2, 131-139, 2009
9. Rodrguez, L., Casas, G.M., Grau, R., Pupo M. (2008) Generalizacin de dos
mtodos de deteccin de conglomerados. Aplicaciones en Bioinformtica. Revista
de Matemtica: Teora y Aplicaciones. Vol. 15 No. 1; 27-40
10. Rodrguez, L., Casas, G.M., Grau, R., Pupo M. (2008) Cluster Detection Using
Fuzzy Logic. A Bioinformatic Application With Fuzzy Scan Method. BIOCOMP08
International Conference on Bioinformatic and Computational Biology. USA July 14-
17. Paper aceptado para el evento con nmero de inscripcin BIC9158
11. Rodrguez, L., Casas, G.M., Grau, R., Pupo M. (2008) Linear Fuzzy Scan Method
to Detect Clusters. A Bioinformatic Application. Memorias de XIV Congreso Latino-
IberoAmericano en Investigacin de Operaciones (CLAIO 2008). Cartagena de
Indias, Colombia. Sep. 9-12. ISBN: 978 958 825283-4
12. Daz, J.E., Casas, G., Alvarez M., Rodrguez, L., (2009) Deteccin de
conglomerados de enfermos dados por tumores malignos. Municipio de Cifuentes.
XVII Frum de Ciencia y Tcnica del Sectorial de Salud de Cifuentes. 4 de Abril.
13. Daz, F., Rodrguez, L., Casas, G.M., Grau, R. (2009) Anlisis de los parmetros
del Scan Lineal utilizando diseo de experimento. Memorias del Primer Taller
Internacional FIMAT XXI. Holgun. Mayo 26-30. ISBN: 978-959-18-0498-3
15. Rodrguez, L., Casas, G.M., Grau, R. (2009) Cluster Detection in DNA Sequences
using the Fuzzy Circular Method. Memorias RECPAT 2009. Congreso Nacional de
Reconocimiento de Patrones. Santiago de Cuba. Dic. 8-10. ISBN: 978-959-207-
381-4
113
Produccin cientfica del autor sobre el tema de la tesis
16. Rodrguez, L., Casas, G.M., Grau, R. (2010) Optimizacin basada en enjambres
de partculas para detectar los parmetros ptimos del mtodo Scan Borroso. ICOR
2010. 9th International Conference on Operations Research. Havana. Feb. 22-26.
17. Rodrguez, L., Casas, G.M., Silveira, P., Grau, R., Daz, F. (Noviembre 2010)
Optimizacin de parmetros en los Mtodos Scan Generalizados. Revista de
la Facultad Ingeniera de la Universidad de Antioquia. Vol. 65
Rojas, Y., Rodrguez, L., Casas, G.M. Registro de Software nmero 2382-2009 del
Centro Nacional de Derecho de Autor a favor de: Optimus, Software para calcular
valores ptimos de los parmetros del mtodo Scan, mediante la unin de algoritmo
bioinspirados (PSO) y el mtodo de simulacin de Mote Carlo. Octubre del 2009.
114
Anexos
RankValues[values_]:= Module[{s,m,r,a,means,ranks,rules},
s=Split[Sort[values]];
m=Map[Length,s];
a=Accumulate[m];
r=Range[1,Length[values]];
means=Map[Mean,Drop[MapThread[Function[{i,k},Take[Drop[r,k],i]],
{Append[m,0],Prepend[a,0]}],-1]];
ranks=MapThread[Function[{i,j},Table[i,{j}]],{means,m}]//N;
rules=MapThread[Function[{i,j},i[[1]]->j[[1]]],{s,ranks}];
ReplaceAll[values,rules]
];
test[nrep_,lf1_,lf2_,namef1_,namef2_,sqsumf1_,sqsumf2_,sqsumf1f2_]:=
Module[{cmtot,grlf1,grlf2,Hf1,Hf2,Hf1f2,sigf1,sigf2,sigf1f2,finalt},
cmtot=nrep*lf1*lf2*(nrep*lf1*lf2+1)/12;
{Hf1,Hf2,Hf1f2}=N[{sqsumf1,sqsumf2,sqsumf1f2}/cmtot,4];
{grlf1,grlf2}={lf1,lf2}-1;grlf1f2=grlf1*grlf2;
sigf1=N[1-CDF[ChiSquareDistribution[grlf1],Hf1],3];
sigf2=N[1-CDF[ChiSquareDistribution[grlf2],Hf2],3];
sigf1f2=N[1-CDF[ChiSquareDistribution[grlf1f2],Hf1f2],3];
finalt=PaddedForm[TableForm[Transpose[{{Hf1,Hf2,Hf1f2},{sigf1,sigf2,sigf1f2}}],
TableHeadings->{{namef1,namef2,namef1<>"*"<>namef2}, {" H","Sign"}}],{10,3}];
Return[finalt]
];
BifactorialNonParamANOVA[data_,nrep_,lf1_,lf2_,namef1_,namef2_]:=
Module[{datanew,res},
datanew=data;
datanew=Transpose[datanew];
datanew[[3]]=RankValues[datanew[[3]]];
115
Anexos
datanew=Transpose[datanew];
res=ANOVA[datanew,{namef1,namef2,All},{namef1,namef2}];
test[nrep,lf1,lf2,namef1,namef2,res[[1]][[2]][[1]][[1]][[2]], res[[1]][[2]][[1]][[2]][[2]],
res[[1]][[2]][[1]][[3]][[2]]]
];
La funcin RankValues tiene el parmetro:
values: lista de valores de la variable dependiente que sern ranqueados.
La funcin test tiene los siguientes parmetros:
nrep: Representa el nmero de rplicas (constante en cada combinacin de valores
de los factores)
lf1: Niveles del factor 1
lf2: Niveles del factor 2
namef1: Nombre del factor 1
namef2: Nombre del factor 2
sqsumf1: Suma de cuadrados del factor 1
sqsumf2: Suma de cuadrados del factor 2
sqsumf1f2: Suma de cuadrados de la interaccin
La funcin BifactorialNonParamANOVA tiene los siguientes parmetros:
nrep, lf1, lf2, namef1, namef2: Como en la funcin test
BifactorialNonParamANOVA[{{1,1,100.},{1,2,100.},{2,1,100.},{2,2,100.},{3,1,86.},{3,2,84.85},
{1,1,100.},{1,2,99.3}, {2,1,100.},{2,2,100.},{3,1,81.65},{3,2,78.95},
{1,1,99.15},{1,2,87.1},{2,1,99.9},{2,2,96.25},{3,1,74.1},{3,2,68.2}},
3,3,2,"Ventana","Paso"]
La respuesta del Mathematica ser una tabla como la siguiente:
H Sign
Ventana 11.556 0.000
Paso 0.329 0.566
Ventana * Paso 0.052 0.969
116
Anexos
max 1
A3[media_, max_] := r=1 Psi[media, 2 max - r] Fnn[media, r -1]2
max 1
A4[media_, max_] := r= 2 Psi[media, 2 max - r] Psi[media, r] ((r - 1) Fnn[media, r] - max Fnn[media, r - 3])
117
Anexos
A3[media_, max_] := r=1 Psi[media, 2 max - r] Fnn[media, r -1]2
max 1
A4[media_, max_] := r= 2 Psi[media, 2 max - r] Psi[media, r] ((r - 1) Fnn[media, r] - max Fnn[media, r - 3])
Q4[max_, media_]:=Q3[max, media]2 / Q2[max, media]
118
Anexos
119
Anexos
120
Anexos
Return[signifs]
]
Para clcular la significacin del Scan Lineal Borroso, se utilizan dos procedimientos, el
primero para la aproximacin borrosa 1 y 2, el segundo para la aproximacin borrosa 3.
Primer procedimiento
Fnn[media_, i_] := Module[{},
If[max<0,p:=0, p:=CDF[PoissonDistribution[media], Floor[i ]]+
PDF[PoissonDistribution[media],Ceiling[i]]*FractionalPart[i];
Return[N[p,10]]
]
Psi[media_, i_] := Module[{},
p := = Psi1[media,Floor[i]] - (Psi1[media,Floor[i]] - Psi1[media,Ceiling[i]]) * FractionalPart[i];
Return[N[p,10]]
]
Psi1[media_, i_] := Module[{},
p :=PDF[PoissonDistribution[media], i ]; Return[N[p,10]]
]
121
Anexos
max 1
A4[media_, max_] :=
r= 2
Psi[media, 2 max - r] Psi[media, r] ((r - 1) Fnn[media, r] - max Fnn[media, r - 3])
Segundo procedimiento
FPsi1[max_,flpdf_] := Module[{},
If[max<0, p=0, FPsi=Interpolation[flpdf]; p=FPsi[max]];
Return[N[p,10]] (*Calcula probabilidad puntual usando funcin de interpolacin *)
]
FFnn1[max_,flcdf_] := Module[{},
If[n<0,p=0,FFnn=Interpolation[flcdf]; p=FFnn[max]];
Return[N[p,10]] (*Calcula probabilidad acumulada usando funcin de interpolacin *)
]
NausSignif[media_, maximo_, L_] :=
Module[{}, (*lp Funcin de interpol. de probabilidades lc Funcin de interpol. de probabilidades acumulada*)
lp = Table[{k,PDF[PoissonDistribution[media], k]},{k,-1,2 max+1}];
lc = Table[{k,CDF[PoissonDistribution[media],k]},{k,-1,2 max+1}];
FA1 = 2 FPsi1[max,lp] FFnn1[max-1,lc] ((max-1) FFnn1[max-2,lc]-media FFnn1[max-3,lc]);
FA2 := 0.5 (FPsi1[max,lp])2((max-1) (max -2)FFnn1[max -3,lc]-2(max -2)media FFnn1[max-4,lc]+
media2 FFnn1[max -5,lc]);
max 1
FA3 :=
r = 1 + FractionalPart[max]
Fpsi1[2 max, lp] FFnn1[r-1, lc]2 ;
max 1
FA4 :=
r = 2 + FractionalPart[ max ]
FPsi1[2 max-r,lp] FPsi1[r,lp] ((r-1) FFnn1[r-2, lc]-media FFnn1[r-3,lc])
122
Anexos
Procedimiento General
123
Anexos
DesFuzzificacion[x1_] :=
CompoundExpression[ (* x valor de la significacin fuzzificada *)
Which[
x1 0.075, gs = 0,
x1 0.05, gs = 1,
x1 < 0.0625, gs = 1 2 * ((x1-0.05) / 0.025) 2
x1 < 0.075, gs = 2 * ((x1-0.075) / 0.025) 2
]; (*Calcular grado de pertenencia de x al conjunto borroso significativo *)
Which[
x1 0.05, ns = 0,
x1 0.075, ns = 1,
x1 < 0.0625, ns = 2* ((x1-0.05) / 0.025) 2,
x1 < 0.075, ns = 1-2* ((x1-0.075) / 0.025) 2
]; (*Calcular grado de pertenencia de x al conjunto borroso no significativo*)
DF1 = If[gs ns,"Signif.","No Signif."]; (*Calcula definitivamente el conjunto al cual pertenece*)
Return[DF1];
]
El Scan Circular Borroso posee estas misma opciones los que hay que convertir la
secuencia en una lista circular y para suavizar las ventanas iniciales y finales se le
aade los elemento que le siguen a continuacin en la lista.
124
Anexos
125
Anexos
126
Anexos
127
Anexos
128