Professional Documents
Culture Documents
Debido a la vinculacin de la Universidad de Caldas, en la alianza Suma (Sistema Universitario de Manizales) y la definicin de Manizales como la Sede del Centro de Bioinformtica y Biologa Computacional de Colombia. Se desea favorecer los conocimientos y competencias de los estudiantes del Programa de Ingeniera de Sistemas y Computacin de la Universidad de Caldas, en temas referentes al procesamiento y descubrimiento de informtica gentica a partir de diferentes etapas de anlisis bioinformtico, para lo cual los profesores de la Asignatura Anlisis y Diseo de Algoritmo desean proponer a los estudiantes la posibilidad de implementar y analizar diferentes funciones y procedimientos que favorezcan la labor de los cientficos y el personal que desea realizar actividades de Bioinformtica en la regin.
Conceptos: La bioinformtica se encarga del anlisis de los datos biolgicos a partir de las ciencias de la computacin, la estadstica, la qumica y la biologa. Genoma: proviene de un acrnimo entre gene y cromosoma, acuado por el profesor alemn Hans Winkler, referido a la informacin gentico que posee un organismo. El conjunto de genes de los cromosomas de una especie se denomina Genoma. Gen: Secuencia de nucletidos, de la molcula de ADN. Los genes se distribuyen a lo largo de las cromtidas de los cromosomas. Los genes estn conformados por regiones que codifican protenas denominados exones y tambin por intrones los cuales no codifican los animocidos.
Plantas
<50000
<1011
Humanos
250001
3 109
Mosca
12000
1,6 108
Hongo
6000
1,3 107
Bacteria
500-6000
5 105 107
Mycoplasma genitalium
500
580.000
Virus ADN
10-300
5.000 800.000
Virus ARN
1-25
1.000 23.000
Transposones
1-10
2.000 10.000
Viroides
0-1
~500
Priones
;0
Cromosoma: Son segmentos largos de ADN que se encuentran en el ncleo de la clula. Son los portadores de la informacin del material gentico y por ende incorporan las caractersticas hereditarias de cada especie. El ADN contiene los genes. Grfica de un cromosoma
Diagrama de un cromosoma eucariticoduplicado y condensado (en metafasemittica). (1) Cromtida, cada una de las partes idnticas de un cromosoma luego de la duplicacin del ADN. (2)Centrmero, el lugar del cromosoma en el cual ambas cromtidas se tocan. (3) Brazo corto. (4) Brazo largo. 1
1
Tomado de http://es.wikipedia.org/wiki/Cromosoma
http://upload.wikimedia.org/wikipedia/commons/f/f3/Mapa_gen %C3%A9tico_o_cariograma.jpeg
Secuenciacin: Es un conjunto de tcnicas, mtodos que determinar cual es el orden de los nucletidos presentes en el ADN.
permiten
Pirosecuenciacin: Es un mtodo de secuenciacin de ADN basado en el principio de sntesis de las secuencias mediante luminiscencias, este mtodo es aplicable a grandes genomas. Ms informacin consulte el siguiente enlace (Pirosecuenciacin)
Ensamblaje: En Bioinformtica, establecer el orden original de una secuencia a partir de mltiples fragmentos, utilizando mecanismos como la alineacin y mezcla se denomina ensamblaje.
La siguiente figura representa las diferentes mquinas de los cuales realizan secuencias de datos biolgicos.
Una vez la muestra biolgica ha sido secuenciada con cualquiera de los mtodos por terminacin de cadena o automtico (utilizando los secuenciadores), el resultado de este proceso es un conjunto de datos que representan el orden de los nucletidos, para lo cual se requiere proceder a realizar el ensamblaje de las diferentes secuencias
Proyecto Se desea a partir de informacin gentica de una especie cualquiera , la cual se encuentra estructurada en archivos planos (en los formatos fasta, fastq), realizar en primera instancia el procedimiento de ensamblaje. Para este caso prctico se tendrn 2435 reads 2, los cuales corresponden a una secuencia biolgica real, del secuenciador BAC 454. Se debe realizar un proceso de ensamblaje de los reads. En la actualidad hay dos estrategias preponderantes en el ensamblaje de secuencias:
1) La primera de ellas denominada de novo: intenta construir la secuencia de ADN completa a partir de las lecturas sin ningn tipo de conocimiento previo acerca del genoma a ensamblar. Busca lecturas cuyo final coincida con el principio de otra de forma que se puedan unir para formar fragmentos mayores hasta completar el genoma. 2)Ensamblado comparativo: basndose en un genoma secuenciado previamente y que suponemos sea similar al que se quiere ensamblar. El procedimiento bsico tratar de colocar cada una de las lecturas en la posicin adecuada utilizando el genoma de referencia como gua.
Los algoritmos de ensamblado de novo se pueden agrupar en 3 categorias: OverlapLayout-Consensus (OLC), grafos de Bruijn (DBG) y grafos greedy que usan OLC o DBG
los archivos se encuentran en formato (.fasta y fasta.qual), los cuales tienen las
siguientes caractersticas: Una secuencia bajo formato FASTA comienza con una descripcin en una nica lnea (lnea de cabecera), seguida por lneas de datos de secuencia. La lnea de descripcin se distingue de los datos de secuencia por un smbolo '>' (mayor que) en la primera columna. La palabra siguiente a este smbolo es el identificador de la secuencia, y el resto de la lnea es la descripcin (ambos son opcionales). No debera existir espacio entre el '>' y la primera letra del identificador. Se recomienda que todas las lneas de texto sean menores de 80 caracteres. La secuencia termina si aparece otra lnea comenzando con el smbolo '>'; esto indica el comienzo de otra secuencia. Un ejemplo simple de una secuencia en el formato FASTA puede ser:
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNL V EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFL G LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVI L GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAG X IENY
Se deben tener datos globales de la secuencia: Las funciones bsicas del proyecto son dos:
1.
1.
Visualizacin -- Interfaz con el usuario (30%, desglosado en los siguientes items) a) (10%) Facilidad para visualizar una secuencia o todas las secuencias que se encuentran en el archivo. b) (5%) Por una secuencia determinada visualizar las frecuencias de cada nucletido. c) (5%) Configuracin de los colores de las bases nitrogenadas. (El usuario puede asociar un color por defecto a las bases), en la visualizacin de la secuencia se deben identificar las bases de acuerdo con los colores definidos d) (10%) Frecuencias : Total de nucletidos por reads, frecuencia por base en cada read y frecuencia por base en todo el archivo fasta. Implementacin de un algoritmo para encontrar la subsecuencia ms larga (70%) a. (10%) Implementar la forma de comparar entre las secuencias, la subsecuencia contigua ms larga que se encuentre en todas las secuencias o en un porcentaje (definido en la interfaz grfica). Ejemplo encontrar la subsecuencia ms larga que se encuentra en el 80% de las secuencias, el valor de 80% es un parmetro. b. (40%) Anlisis matemtico de la solucin y contrastacin del tiempo de ejecucin y la estrategia utilizada para leer grandes volmenes de datos. c. (20%) Se debe documentar la aplicacin indicando : i.Documentar el Cdigo ii.Informe en UML que incorpore (Requerimientos, Casos de USO, diagrama