Professional Documents
Culture Documents
Rodrigo Santamara
S
2
Objetivo
Homologa
comn
S No hay grados, o se es homlogo o no (soy un 30% tu padre) S Dos protenas homlogas suelen tener una estructura 3D
similar
S Dos protenas o genes homlogos suelen tener secuencias
parecidas
Ortologa y Paraloga
distinto a la evolucin
S Simplificacin (no totalmente equivalente) S Ortlogo: homlogo entre diferentes especies S Parlogo: homlogo dentro de una misma especie
Similitud e Identidad
S Analoga: grado muy alto de similitud entre dos secuencias S La homologa no siempre garantiza analoga
S La -globina y la neuroglobina slo comparten un 22% de sus
Alineamiento de pares
S Colocacin de dos secuencias para que se maximice su similitud ROJO ROSSO "+2" ROUGE "+2" RED "+1" ROJO ROSSO" ** * "+3 (75%)" ROJO ROUGE "" ** +2 (50%)"
Huecos (gaps)
secuencia
8
de la secuencia
S Favorece encontrar patrones similares dentro de la secuencia S Un alineamiento local es una combinacin de muchos
(NP_000509) en humano
10
Query y Sbjct: secuencias. Ambas se alinean para maximizar su similitud Coincidencias: lnea entre Query y Sbjct Letra: coincidencia idntica +: coincidencia conservada (aminocidos bsicos, cidos, hidrfobos) Espacio en blanco: no hay coincidencia Score: valor del algoritmo de alineamiento Identities/Positives: porcentaje de coincidencias idnticas/conservadas Gaps: porcentaje de huecos incluidos en el alineamiento
Matrices de puntuacin
S
13
Algoritmos de alineamiento
misma estructura 3D
S Evolutivas: dos secuencias proceden de un ancestro comn
14
S Alineamiento local
S Smith and Waterman (1981)
15
16
Cada vez que haya una coincidencia en un nucletido, colocamos un punto. Por ejemplo, en el caso del primer nucletido de la secuencia horizontal (T)
TCCGACTTGAGATTACAGAAGTCG
Continuamos con secuencias de 2, 3, 4, etc. Se suele establecer un umbral mnimo, o tamao de ventana (p. ej. 3)
TCCGACTTGAGATTACAGAAGTCG
TCCGACTTGAGATTACAGAAGTCG
Repeticiones de secuencia
Score: medida de similitud
Tamao de ventana
Umbrales x%-y%: sec. similares de score mayor que y% se muestran en blanco, menores que x% en negro, intermedias en grises
Dot plot
21
22
23
24
Cuatro bloques grandes ricos en leucina Seis bloques (ms uno) con dominios EGF
http://myhits.isb-sib.ch/util/dotlet/doc/repeats.html
Dotplot: consideraciones
de diagonales por arriba o por abajo S La longitud del patrn repetido lo da la longitud de la lnea
S Ahora veamos algunos ejemplos ms
S Regiones de baja complejidad S Exones e intrones S Conservacin entre especies
26
Dotlet
Lieb et al. Red blood with blue-blood ancestry: Intriguing structure of a snail hemoglobin. PNAS, 2006
27
Las regiones de baja complejidad (periodicidad de uno o pocos aminocidos/nucletidos) aparecen como rectngulos, como por ejemplo en esta protena del P. Falciparum (UniProt P69192)
Identificacin de exones: comparamos la secuencia de un gen (horizontal) con su producto. Los exones sern las coincidencias entre ambos En este caso se ha seleccionado el gen de la calmodulina del E. Nidulans (Uniprot J05545) y su producto (P19533). Notad los cambios en los parmetros para optimizar la claridad de la representacin
29
Dotlet
S Limitaciones
S Complejidad computacional O(n2) S Y si hay huecos?
30
S Queremos el mejor alineamiento de todos los posibles S El que nos da una puntuacin mejor S El nmero de posibles alineamientos permitiendo huecos
subproblemas, de manera que la solucin a los subproblemas simplifica la solucin del problema global
31
Programacin dinmica
S Alineamiento global: Needleman-Wunsch (NW)
S 1970, PMID: 5420325
32
Puntuaciones
S Por ejemplo S +1 por cada elemento igual (match) S -1 por cada elemento desigual (mismatch) S -1 por cada hueco introducido (gap) S Esta es una puntuacin muy simple que se usar slo para ilustrar el funcionamiento de los algoritmos NW y SW
S Las puntuaciones se refinarn con PAM y BLOSUM ms adelante
33
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P E L I C A N
34
-1
-2
-3
-4
-5
-6
-7
valores, que son la suma de una celda adyacente ms el match/ mismatch (MM) de la celda actual S MM + celda superior S MM + celda izquierda S MM + celda superior izquierda
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P E L I C A
35
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
-3
-3
-3
-2
-1
-2
-3
-4
-5
-6
tres valores S Se le asigna la direccin a la celda que propici ese valor S En caso de que sean valores iguales, se elige un criterio de desempate
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
-5
-3
-4
-4
-2
-2
-1
-2
-3
-4
-6
-4
-4
-5
-3
-1
-1
-1
-2
-7
-5
-5
-5
-4
-2
-2
NW: trace-back
C O
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
inferior derecha
S Siguiendo las flechas S desplazamiento de la
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
-3
-3
-3
-2
-1
-2
-3
-4
-5
-6
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
-5
-3
-4
-4
-2
-2
-1
-2
-3
-4
-6
-4
-4
-5
-3
-1
-1
-1
-2
-7
-5
-5
-5
-4
-2
-2
COELACANTH" -PELICAN--"
Local
S til con secuencias de distinto
computacional ms alto
cuando llegue a un 0
39
Smith-Waterman
1 O vs E -1 + max(0,0,0) -1 0 2 L vs L 1 + max(0,1,0) 2 1 2
COELACANTH" -PELICAN--"
40
41
S
42
Matrices de puntuacin
sentido biolgico:
S Gentico: coste de mutacin de un aminocido en otro S Qumico: similitud en las caractersticas de los aminocidos S Evolutivo: frecuencia evolutiva de cambio en aminocidos
S Lod scores S PAM S BLOSUM
43
ACA ACC 2 3 3 2
ACU 3 3
46
Matrices de puntuacin
de sustitucin respecto a una sustitucin aleatoria S Se basa en las evidencias conocidas de sustituciones evolutivas
S Los lod scores son nmeros reales, pero
S Usualmente se representan mediante nmeros enteros (raw
47
Pauling disean la primera matriz de puntuaciones para distintas secuencias de globina S Rojo: sustituciones que nunca ocurren S Blanco: sustituciones que ocurren en con una frecuencia menor al 20% S Con nmero si entre 21 y 39% S Gris: sustituciones que ocurren con una frecuencia del X% (>=40%) S Con parntesis si se tienen pocas evidencias para esa sustitucin
48
sustituciones en 71 grupos de protenas muy parecidas entre s S Accepted Point Mutation (PAM): sustitucin de un aminocido por otro, que ha sido aceptada por la seleccin natural para una determinada protena matriz de Dayhoff con una base de datos de 500 alineamientos (BLOCKS) entre protenas poco parecidas entre s
49
Matriz de Dayhoff
S Se reconstruye un rbol filogentico para cada uno de los 71
50
ALEU
Aij
1572 mutaciones aceptadas (PAMs) estudiadas entre los distintos aminocidos, multiplicadas por 10 Por ejemplo, 20.7 de las 1572 PAMs ocurren entre Leu y Met Leu tiene un total de 142.8 mutaciones relacionadas
51
Matriz de Dayhoff
Para Ala se toma un valor arbitrario de 100
mj
Mij probabilidad de que el aminocido j cambie al aminocido i en un intervalo evolutivo dado - constante de proporcionalidad (para Dayhoff, ~0.013) MMET-LEU = mLEUAMET-LEU/ALEU = 0.01340207/1428 = 0.08%
! m j Aij M ij = Aj
S
Mutabilidad relativa segn Dayhoff et al. 1978
52
Matriz con probabilidades de mutacin PAM1 1 PAM se define como la unidad de divergencia evolutiva en la que han ocurrido un 1% de mutaciones entre dos secuencias de protenas
53
PAMn
las probabilidades de sustitucin si hay un n% de probabilidades de que cada aminocido de la cadena haya mutado.
S S
til para estudiar sustituciones entre aminocidos en protenas muy distintas, con probabilidad de sustitucin muy baja PAM60, PAM80, PAM100, PAM250
S Multiplicacin de matrices
54
qij
Matriz con probabilidades de mutacin PAM250 Para conseguir esta matriz, se multiplica la matriz PAM1 por s misma 250 veces
algoritmos de alineamiento, requieren de una normalizacin previa para facilitar los clculos sustitucin de un aminocido por otro
log(mn)=log(m)+log(n)
S Los lod scores son simtricos, simplificando las matrices. S Los lod scores suelen simplificarse a enteros (raw scores),
56
frecuencia con la que el aminocido i se convierte en el aminocido j aparicin del aminocido i S Es una normalizacin de la mutabilidad relativa por j en PAMn
S pi frecuencia normalizada de
cadenas (en un alineamiento regido por el estudio evolutivo de Dayhoff en PAM250) es 10-0.161 ~ un 70% de la posibilidad de que se d esa correspondencia aleatoriamente
S
58
Es una matriz simtrica Debido a la normalizacin y redondeo al entero ms cercano Simplifica los clculos de los algoritmos de alineamiento Se dan lod scores simplificados al entero ms cercano (raw scores) Simplifican los clculos de los algoritmos de alineamiento Puede introducir pequeos errores (asumibles)
Qu PAM uso?
60
BLOSUM
contiene segmentos alineados sin huecos, correspondientes a las regiones de protenas ms conservadas
S BLOCKS contena inicialmente 500 patrones, ahora ~2000
secuencias de partida
S BLOSUM45, BLOSUM62, BLOSUM80
61
Bloque
S Ejemplo de bloque:
62
Clculo BLOSUM
A" S En BLOSUM no conocemos el rbol filogentico: cualquier A" secuencia se considera un ancestro posible de las dems A" Pares posibles f AA = 6 + 5 + 4 + 3+ 2 +1 = 21 f AK = 7 A" A" f AA 21 f AK 7 Probabilidades de qAA = = = 0.75 A" qAK = = = 0.25 los pares f AA + f AK 21+ 7 f AA + f AK 21+ 7 A" K" Probabilidad de que A o qAS 0.25 qK
K estn en un par
pA = qAA +
= 0.75 +
= 0.875 pK =
= 0.125
eAA = pA ! pA = 0.76525
eAK = 2 ! pA ! pK = 0.21875
lod score
sAA = 2 ! log 2
sAK = 2 ! log 2
BLOSUM62
Segn Henikoff & Henikoff (1992) BLOSUM62 es mejor alternativa que PAM y otros BLOSUM para un alineamiento genrico. Es utilizada como matriz por defecto por la mayora de los programas de alineamiento y de bsquedas en bases de datos
64
PAM vs BLOSUM
65
La dimensin desconocida
S Hasta qu punto dos protenas
250% de probabilidades de que cada aminocido haya mutado equivale a una similitud del ~20% S El rea de similitud entorno al 20% se llama la twilight zone o dimensin desconocida
S Las secuencias pueden estar
ADN?
informacin:
aminocido resultante ms estable S Muchos aminocidos comparten propiedades biofsicas S Muchas protenas comparten estructura o regiones estructurales S El ADN sufre distintas modificaciones pos-translacionales que pueden influir en la protena que codifica
67
A T C G
Matriz utilizada por BLAST
Matriz PAM1 para nucletidos La transicin (mutacin entre purinas A-G, o entre pirimidinas C-T) es ms comn que la transversin (de purina a pirimidina)
68
Resumen
La bioinformtica se basa en la comparacin de datos. Para maximizar la calidad de la comparacin de dos secuencias, necesitamos alinearlas. La comparacin de secuencias nos ayuda a inferir funciones, relaciones, dominios, etc. Para realizar el alineamiento, debemos decidir cmo evaluar las diferencias entre las secuencias (matriz de puntuacin) y qu estrategia usar para maximizar la similitud (algoritmo)
El algoritmo puede ser global (NW) o local (SW). NW alinea la secuencia completa a la vez y es til para secuencias similares en longitud. SW es una evolucin de NW y es til para secuencias ms variables, encontrando en general mejores soluciones, a costa de una mayor complejidad computacional. Las matrices de puntuacin ms usadas son PAM y BLOSUM, ambas basadas en evidencias evolutivas. Las matrices tienen distintas versiones, que corresponden a distintas suposiciones sobre la distancia evolutiva entre las dos secuencias a alinear
69
S Al calcular los lod scores crees que los errores que introduce este
clculo adicional son asumibles? Prueba a calcular SR,A como se calcul SA,R en la diapositiva 58
utilizar? Hay algn modo de conocer cul es la mejor matriz de puntuacin a utilizar? dominio que evoluciona lentamente y otro que lo hace rpidamente. Para compararla con otra protena, usaras dos alineamientos distintos (por ej. con matrices PAM40 y PAM250) o uno solo, con una matriz intermedia?
70
Lecturas adicionales
S Pevsner, 2009: Ch 3 Pairwise Sequence Alignment S Yi-Kuo Yu and Stephen F. Altschul, The construction of amino acid
substitution matrices for the comparison of proteins with non-standard compositions, Bioinformatics. 2005 Apr 1;21(7):902-11,
S
PMID: 15509610
S Eddy SR., Where did the BLOSUM62 alignment score matrix come
71
72
Genome Valence es un proyecto de Ben Fry para visualizar el proceso de alineamiento de pares con BLAST Se representan las dos secuencias a alinear, que se van rompiendo en pedazos y unindose si se alinean http://benfry.com/genomevalence/
73