BIOLOGIA COMPUTACIONAL

TUTORIAL 5. BLAST
(duración estimada: 4 horas)

OBJETIVOS
Al final de este tutorial, el alumno deberá ser capaz de utilizar adecuadamente la herramienta BLAST e interpretar los resultados obtenidos.


MUY IMPORTANTE: Escriba a continuación su NOMBRE Y APELLIDOS:

Y su dirección de correo electrónico:

Al enviar este formulario, COMPRUEBE QUE HA RECIBIDO EN SU CORREO UNA COPIA con las respuestas. Si no le ha llegado a usted, tampoco le habrá llegado al profesor. ES RESPONSABILIDAD SUYA asegurarse de que la dirección es la correcta.



1. BLAST es una herramienta para hacer alineamientos locales rápidamente, de modo que podemos utilizar una secuencia desconocida (“Query”) para interrogar una base de datos entera, alineando nuestra Query con cada una de las secuencias presentes en esa base de datos y seleccionando sólo aquellas secuencias que producen un alineamiento con un score superior a un umbral determinado. Hacer esto con algoritmos que usan programación dinámica llevaría demasiado tiempo, por lo que se usan algoritmos que aplican reglas heurísticas, de los cuales el más rápido y el más utilizado es BLAST. Vaya en primer lugar a la página inicial de BLAST y lea el contenido.


2. Antes de empezar a usar la herramienta, debe comprender bien cómo funciona. Para ello, haga click en la pestaña “Help” y vea  BLAST interface description. Vea este video (es un archivo de Flash con sonido) para comprender la mecánica de una búsqueda en BLAST. Estudie también la guía de selección de programas (BLAST program selection guide) para entender las distintas versiones de BLAST.

3. Llegados a este punto, está ya en condiciones de hacer su primera búsqueda BLAST. Imagínese que ha obtenido un fragmento de secuencia de ARN mensajero en el laboratorio, y quiere saber exactamente qué es. Lógicamente, le interesa interrogar Genbank para ver si hay secuencias idénticas o similares a la suya. La secuencia en cuestión se encuentra en este archivo.

Utilice megablast para buscar las secuencias similares de nucleótidos de la especie Homo Sapiens presentes en la versión completa (no-redundante) de Genbank.

PISTA:
no busque en "BLAST Assembled RefSeq Genomes", sino en "Basic BLAST" y seleccione la base de datos "Nucleotide collection (nr/nt)".

Haga click en “Algorithm parameters” y fíjese en los valores por defecto. Haga la búsqueda y espere a la página de resultados. En esta, verá al principio una línea que dice Other reports. Haga click en “Search Summary” y consulte los parámetros utilizados:

¿Cuántas secuencias contiene la base de datos donde se ha realizado la búsqueda? 

¿Qué valores tienen las constantes kappa y lambda?

¿Qué penalizaciones para gaps se han usado?

¿Qué significa el color rojo de las líneas delgadas del recuadro en Graphic Summary?


¿Cuál es el primer “hit” encontrado por BLAST? (indique número de acceso y descripción del mismo)


¿En qué se diferencia del segundo y del tercer hits? (observe atentamente la sección Alignments de cada uno de ellos)


Según estos resultados, explique qué podría ser la secuencia que ha obtenido en el laboratorio:



4. Ahora ordene los resultados por el valor decreciente de Total score (en la sección Descriptions) y observe lo que sucede. ¿Cómo ha cambiado la figura en Graphic Summary? ¿Cree que los resultados son más útiles que antes?

 

5. Vuelva a la página de BLAST y realice la misma búsqueda usando ahora el programa megablast discontiguo. Preste atención al hecho de que cambian los parámetros del algortimo cuando selecciona discontigous megablast en "Program Selection". Recuerde seleccionar sólo secuencias humanas.

Explique qué parámetros cambian al seleccionar discontigous megablast y por qué:


Ejecute ahora la búsqueda. Comente si han variado los tres primeros resultados, sus scores y sus e-values, y por qué:



6. Vuelva a la página principal de BLAST y realice la misma búsqueda pero ahora seleccionando blastn en Program Selection (en vez de megablast). Fíjese de nuevo en los parámetros que utiliza el programa (expanda la sección Algorithm parameters). Cambie los parámetros para enmascarar específicamente las repeticiones humanas en la query (además de las regiones de baja complejidad). Recuerde seleccionar sólo secuencias humanas.

Ejecute la búsqueda. ¿Han cambiado los resultados respecto a la búsqueda anterior?

Comente si han variado los scores y los  e-values de los tres primeros hits, y por qué:


¿Se han utlizado las mismas penalizaciones por creación y extensión de gaps que en el ejercicio anterior?

¿Se ha utilizado la misma matriz de puntuación que en el ejercicio anterior?



7. Vuelva a la página principal de BLAST y realice la misma búsqueda para buscar en bases de datos de proteínas. Como la query es un ARN mensajero, tendrá que elegir el programa adecuado para hacer esto. Modifique las opciones para obtener únicamente secuencias de Swissprot que puedan ser el resultado de la traducción de nuestro ARN mensajero. Recuerde seleccionar sólo secuencias humanas. Como siempre, eche un vistazo a los parámetros del algoritmo.

¿Por qué aparecen en Graphic Summary líneas de color morado, verde y negro?


La numeración de la secuencia query en los alineamientos de los resultados, ¿se refiere a los nucleótidos o a los aminoácidos?

¿Y la numeración de la secuencia subject?

Fíjese en los alineamientos (sección Alignments)¿Según el hit con un e-value mejor, qué región del ARN mensajero no tiene alineamiento con secuencias humanas de Swissprot? (indique el rango en nucleótidos).


¿Cuál marco de lectura de nuestra secuencia encuentra mejores alineamientos con la base de datos utilizada? ¿Se encuentra algún hit significativo usando otros marcos de lectura? Explique la respuesta y qué confianza le merecen esos hits.




8. Escoja la ORF más larga obtenida al utilizar sixpack (en EMBOSS) sobre nuestra secuencia problema (sin forzar para que comience por una metionina). Utilice ahora esa traducción como query en una búsqueda con blastp, buscando sólo secuencias humanas de Swissprot.

Mientras se lleva a cabo la búsqueda, aparece una pantalla con un rectángulo rojo (o amarillo; a veces el rectángulo no aparece hasta el final de la búsqueda). Haciendo click encima, aparecerá otra pestaña. Estudie esa página y explique qué representa.


Inspeccione ahora el resultado de la búsqueda y fíjese en el alineamiento del primer hit. ¿Es mejor que el obtenido en la búsqueda anterior (en la que se había usado blastx)? ¿Por qué?


Fíjese en el segundo y tercer hit y explique qué son esas secuencias y por qué han sido detectadas con nuestra query.




Pulse el botón ENVIAR terminar el TUTORIAL 5