Professional Documents
Culture Documents
Jess S. Aguilar-Ruiz 1
Resumen
La prediccin de estructuras de protenas es
actualmente un importante campo de
investigacin dentro de la bioinformtica. En
esta rea, existen numerosos estudios realizados
en los que se ha usado la informacin de la
separacin entre los aminocidos de una cadena
para predecir la estructura de las protenas,
utilizndose en otros trabajos ciertas
propiedades fsico-qumicas de aminocidos. En
este trabajo se han usado ambas informaciones
y se ha estudiado cmo influyen en la
prediccin de estructuras de protenas
empleando el algoritmo de vecinos ms
cercanos. Hemos comprobado que la
informacin proporcionada por las propiedades
fsico-qumicas es de mayor inters que la
separacin, obtenindose mejores tasas de
acierto. Se han realizado cuatro experimentos en
los que se ha usado como atributos, la
separacin entre aminocidos y un conjunto
determinado de propiedades fsico-qumicas de
los mismos y, como ejemplos, todas las
subsecuencias posibles encontradas en un
conjunto de ms de 5000 protenas reales.
Finalmente se demuestra empricamente que la
separacin entre aminocidos, ampliamente
usada en la literatura, puede ser reemplazada
por propiedades fsico-qumicas de aminocidos, produciendo mejores predicciones. La
tasa de acierto conseguida usando slo la
separacin est en torno al 59%, ascendiendo
este valor hasta el 79% al usarse un conjunto de
propiedades fsico-qumicas de aminocidos.
Palabras Clave: propiedades fsico-qumicas,
separacin, vecinos ms cercanos, prediccin de
estructura secundaria de protenas.
1 INTRODUCCIN
Este trabajo se encuentra emplazado dentro del rea de la
bioinformtica y, dentro de la misma, en la prediccin de
estructuras secundarias de protenas.
La prediccin de la estructura secundaria de las protenas
consiste en averiguar un patrn de comportamiento en la
formacin tridimensional de las protenas, nicamente a
partir de la cadena de aminocidos que la forman.
Hoy en da se desconoce el carcter determinista de dicho
proceso de formacin, estudindose tan solo los estados
inicial (cadena de aminocidos) y final (protena
totalmente formada).
Para llevar a cabo la tarea de prediccin se pueden utilizar
mtodos de minera de datos, los cuales trabajan, en este
contexto, con bases de datos procedentes de protenas
conocidas, y mediante algoritmos de clasificacin y
regresin extraen el conocimiento suficiente para generar
un modelo que permita averiguar de forma determinista la
estructura que tendr una protena an sin formarse, con
un determinado grado de probabilidad de acierto. Entre
estos mtodos se encuentra la tcnica de vecinos ms
cercanos, empleada en la prediccin de estructuras de
protenas [4,13].
Para realizar las predicciones se pueden usar los llamados
mapas de contacto, que ilustran dnde se producen las
conexiones entre los aminocidos dentro de la cadena
proteica, y los llamados mapas de distancia, entre otros.
En estos ltimos, se representan los valores reales y
predichos de distancia entre dos aminocidos cualesquiera
de la cadena. En este trabajo se predicen mapas de
distancia, con lo que se hablar de regresin en lugar de
clasificacin, al ser la distancia un valor continuo. De esta
forma, los resultados de las predicciones realizadas
pueden ser expresados a posteriori en trminos de
contactos usando diferentes umbrales.
En numerosos estudios realizados se ha usado para la
prediccin la informacin de la separacin entre
459
2 MTODO
Se han realizado tres actividades encaminadas a probar un
conjunto de datos de protenas reales, una serie de
propiedades fsico-qumicas conocidas y la separacin
entre aminocidos, mediante un algoritmo de vecinos ms
cercanos, para finalmente analizar los resultados
obtenidos y extraer conclusiones en relacin al objetivo
planteado.
Se ha escogido la herramienta Weka [5], ampliamente
utilizada en procesos de minera de datos, para predecir la
estructura de las protenas. En concreto, para predecir la
distancia entre cualquier par de aminocidos de sus
cadenas polipeptdicas.
Esta herramienta trabaja con archivos de datos donde
deben incluirse una serie de ejemplos con un conjunto de
atributos determinado y una clase o etiqueta, para la cual
460
461
(1)
3 EXPERIMENTACIN
A continuacin, se mostrarn las tablas y grficas
generadas a partir de los resultados obtenidos en la
experimentacin y se extraern las conclusiones de las
mismas en el marco de los objetivos planteados en este
trabajo.
3.1 TASA DE ERRORES EN LOS EXPERIMENTOS
En primer lugar mostramos en la figura 3, mediante un
grfico de Boxplot, el error relativo medio cometido en
cada experimento.
462
463
4 CONCLUSIONES
Las propiedades fsico-qumicas de los aminocidos
repercuten positivamente en la tasa de acierto de la
prediccin de estructuras protenas mediante un clsico
algoritmo de vecinos ms cercanos, ya sea en presencia o
en ausencia de la informacin de separacin entre
aminocidos.
Segn los resultados obtenidos en este trabajo, parece
conveniente explorar ms propiedades fsico-qumicas y
aadirlas al conjunto de estudio, para determinar cul es
el conjunto o conjuntos de propiedades que mejor ayudan
a la prediccin de estructuras de protenas.
Los resultados nos conducen a pensar que algn
subconjunto de todas las posibles propiedades fsicoqumicas de aminocidos conocidas, con una asignacin
oportuna de ponderaciones, permitira realizar
predicciones de mayor calidad y minimizar el error.
Referencias
[1] Berman, H.M., Westbrook, J., Feng, Z., Gilliland, G.,
Bhat, T.N., Weissig, H., Shindyalov, I.N., Bourne,
P.E. The Protein Data Bank. Nucleic Acids Research,
28 pp. 235-242, 2000.
464