FACULTADES DE CIENCIAS Universidad de NavarraOpenCourseWare
 DEPARTAMENTO DE GENéTICA
  Asignatura: Human Molecular Genetics
 

Tema 1.1. Historia y desarrollo del Proyecto del Genoma Humano

En 1986, el Departamento de Energía de los Estados Unidos lideró la Iniciativa del Genoma Humano, tras varios años de contactos y reuniones, y puso en marcha el mayor proyecto biomédico de la historia con el objetivo final de conseguir la secuencia completa del genoma humano en el año 2005. El Proyecto Genoma Humano comenzó oficialmente en Estados Unidos en octubre de 1990, siguiendo un plan a cinco años para desarrollar las herramientas que permitiesen conseguir esa meta. Estas herramientas eran principalmente la construcción de mapas genéticos (de ligamiento) y de mapas físicos (de clones) de todo el genoma humano, al tiempo que se desarrollaba la tecnología necesaria para realizar secuenciación a gran escala. La estrategia general consistió en construir mapas genéticos y físicos e integrarlos, para aumentar cada vez más en resolución desde el cromosoma hasta la secuencia de ADN.

El concepto de ligamiento genético y la forma en que se cuantifica son objeto del Tema 4. Si el lector no está familiarizado con la construcción de mapas de ligamiento, se aconseja estudiar ese Tema antes de seguir leyendo.

Los mapas genéticos describen la organización cromosómica de caracteres (un rasgo fenotípico, una enfermedad) o de marcadores genéticos, mediante estudios de ligamiento genético.

Los primeros éxitos de mapeo genético en humanos fueron los que consiguieron asociar un carácter a un cromosoma, como por ejemplo el ligamiento del daltonismo al cromosoma X, o ligamiento del grupo sanguíneo Duffy al cromosoma 1. Este último fue el primer rasgo hereditario mapeado a un autosoma (en 1968) gracias a que, en una familia concreta, se observó que este rasgo se heredaba junto con un heteromorfismo del cromosoma 1. Esto puso de manifiesto la utilidad de contar con marcadores de ADN que estuviesen distribuidos por todo el genoma, fuesen fáciles de estudiar en un número alto de individuos y tuviesen una posición cromosómica conocida, ya que así se podrían realizar estudios de ligamiento genético en familias que padecen una determinada enfermedad genética para determinar si esa enfermedad está en ligamiento con alguno de estos marcadores, lo que facilitaría la identificación del gen responsable.

Figura 1.1: Como se explica en este video, la estrategia seguida por el Consorcio Internacional para la secuenciación del genoma humano partió de la construcción de mapas genéticos (de ligamiento) de todo el genoma; con esta información se crearon mapas físicos que permitieron identificar los clones que cubren regiones específicas del genoma, para ordenarlos y secuenciarlos.

Los tipos de marcadores más utilizados en estudios de ligamiento en Genética Humana son:

  • Polimorfismos de Longitud de Fragmentos de Restricción (en inglés, las siglas son RFLP). Un RFLP es un polimorfismo originado por un cambio de un nucleótido que crea o destruye una diana de restricción, de manera que encontraremos alelos con esa diana y alelos sin ella. Por tanto, un RFLP es por definición un marcador bialélico (sólo hay dos alelos posibles). La presencia o ausencia de esa diana hace que los fragmentos originados por la digestión del ADN con esa enzima de restricción sean de distinto tamaño. En general, un polimorfismo tipo RFLP puede detectarse de dos modos: a) digerir directamente el ADN genómico, separar los fragmentos en un gel, hacer un Southern blot e hibridarlo con una sonda específica para detectar cada uno de los fragmentos polimórficos; b) amplificar la región del polimorfismo mediante PCR y digerir directamente el producto de PCR para separar los fragmentos en un gel.
  • Los marcadores tipo VNTR (acrónimo inglés de “Número Variable de Repeticiones en Tándem") son polimorfismos originados por pequeñas secuencias de ADN que están repetidos en tándem. El número de repeticiones es diferente en los distintos individuos de la población, por lo que en principio pueden existir más de dos alelos distintos para cada marcador (aunque cada individuo sólo lleve dos alelos, en la población general pueden existir más). Los marcadores en los que la secuencia repetida es corta (2 a 4 nucleótidos) se denominan también microsatélites ó STR (“Short Tandem Repeats", Repeticiones Cortas en Tandem), y están homogéneamente distribuidos por todo el genoma. Los marcadores en los que la secuencia repetida es más larga (decenas a cientos de nucleótidos) se denominan minisatélites, y han sido muy importantes en los estudios de genética forense ya que permiten establecer una huella genética única para cada individuo. Los minisatélites son más abundantes hacia las regiones teloméricas de los cromosomas, y -debido a su tamaño- en principio deben detectarse mediante Southern blot e hibridación. En cambio, los marcadores de tipo microsatélite pueden detectarse mediante PCR y están distribuidos uniformemente por el genoma, por lo que su análisis es más rápido y sencillo y proporcionan mayor información.
  • Los SNP (pronunciado “snip”) son polimorfismos de un solo nucleótido (“Single Nucleotide Polymorphisms”) en los que el simple cambio de un nucleótido en una secuencia genómica da lugar a distintos alelos. Lógicamente, para cada posición sólo puede haber cuatro alelos como máximo (A, C, G ó T), aunque lo habitual es que un SNP tenga dos alelos en la población general. Se estima que, como promedio, hay al menos un SNP cada 500-1.000 pares de bases, de los cuales un porcentaje importante son polimorfismos codificantes (es decir, cambian un aminoácido en la proteína codificada por el gen) y constituyen la principal fuente de variabilidad genética inter-individual, puesto que dos individuos cualesquiera tienen alrededor de un 0,1% de sus nucleótidos distintos. La gran ventaja de los SNP sobre los demás tipos de marcadores, además de ser tan abundantes y estar muy uniformemente distribuidos por todo el genoma humano, es la posibilidad de analizarlos mediante métodos automatizables a gran escala, como los microarrays, de manera que se pueden determinar cientos ó miles de SNPs a la vez en un mismo experimento.

Figura 1.2: En este video se explican marcadores de tipo RFLP y Microsatélite, utilizados en al construcción de mapas de ligamiento durante el Proyecto Genoma Humano. Este otro video muestra los marcadores de tipo SNP.

La siguiente tabla resume las principales características de estos tipos de marcadores:

MARCADOR

ABUNDANCIA EN EL

GENOMA HUMANO

CARACTERÍSTICAS

RFLP

>105

Dos alelos

Detección por Southern ó PCR

Permite localización física

Minisatélites

>104


Multialélicos

Detección por Southern

Se acumulan en subtelómeros

Microsatélites


>105

Multialélicos

Detección por PCR

Distribución homogénea

SNP

>106

Máximo 4 alelos (habitualmente 2)

Automatizables

El objetivo inicial del PROYECTO GENOMA era crear un mapa genético (de ligamiento) con marcadores distribuidos por todo el genoma con una distancia media de 1 cM entre marcadores. Los mapas genéticos se basaron en un primer mapa publicado en 1987, hecho con 393 marcadores tipo RFLP agrupados en 23 grupos de ligamiento, con una distancia media entre marcadores superior a 10 cM. El primer mapa genético de todo el genoma fue el realizado por un centro de investigación francés llamado Généthon en 1992, e incluía 803 marcadores tipo microsatélite.

Los mapas físicos, en cambio, reconstruyen la estructura de un segmento de ADN, determinando los tipos y orden relativo de las distintas secuencias que lo componen, sus tamaños, y las distancias entre ellas. Para la construcción de mapas físicos se utiliza un tipo de marcador distinto, que veremos más adelante. Lógicamente, el mapa físico de mayor resolución posible es la secuencia completa de ese segmento (resolución de 1 nucleótido), pero también es posible realizar mapas de menor resolución (un ejemplo, mapas de restricción). El tipo de marcador utilizado en la creación de mapas físicos se denominó STS (Sequence-Tagged Site = Sitio Etiquetado por su Secuencia). Un STS es un pequeño fragmento de ADN (unos pocos cientos de pares de bases) de secuencia y localización genómica conocidas, fácilmente amplificable mediante PCR. Durante años se habían identificado un buen número de marcadores STS, mediante la secuenciación parcial de clones previamente mapeados por otros métodos. Además, los microsatélites utilizados en la creación de mapas de ligamiento también pueden convertirse fácilmente en STS, leyendo la secuencia que flanquea las repeticiones del microsatélite. Gracias a esto, hoy contamos con una lista ordenada de STS que están distribuidos por todo el genoma humano, cuya secuencia y condiciones de amplificación mediante PCR son fácilmente accesibles a todo investigador. El PROYECTO GENOMA se propuso inicialmente conseguir mapas de marcadores tipo STS distribuidos por todo el genoma y con una distancia media entre marcadores en torno a 0.1 Mb (es decir, 100kb).

Utilizando estos marcadores STS, se pudieron construir mapas físicos, es decir mapas compuestos por clones de bibliotecas genómicas, capaces de albergar insertos de gran tamaño. Existen distintos vectores de este tipo, entre los que destacan los vectores tipo YAC (Yeast Artificial Chromosome), PAC (P1-phage Artificial chromosome) y BAC (Bacterial Artificial Chromosome). Cada uno de estos vectores de clonación tiene características específicas, ventajas e inconvenientes. En concreto, los YAC son los vectores que permiten albergar un mayor tamaño de inserto (hasta 2 Megabases), pero son bastante inestables (tienden a perder fragmentos del inserto cuando se replican) y tienen un porcentaje relativamente alto de clones quiméricos (es decir, clones en los que el inserto está en realidad formado por dos fragmentos procedentes de cromosomas distintos). Los PACs y BACs, en cambio, sólo permiten clonar insertos de unas 100 a 150 kilobases de tamaño (por lo que son necesarios muchos más clones para cubrir completamente un segmento genómico determinado), pero en cambio son muy estables y el porcentaje de quimerismo es muy pequeño. Aunque los YACs han sido el vector principalmente utilizado al principio de los años 90, hoy en día han sido desplazados por PACs y BACs.

La Figura 1.3 explica, en este video, la utilización de marcadores STS para crear un contig de clones que cubran una región del genoma.

Los primeros mapas físicos del genoma humano estaban compuestos por contigs de YACs que cubrían parcialmente el genoma humano, siendo el mejor ejemplo el mapa creado también por Généthon en 1993. Este mapa supuso un avance enorme porque —aunque no cubría muchas regiones genómicas— sirvió como punto de partida para elaborar mapas más completos con vectores más fiables y manejables, como BACs y PACs.

El PROYECTO GENOMA hizo una revisión de sus objetivos en 1993, teniendo en cuenta los progresos realizados en los 3 años anteriores, y estableció nuevas metas para los siguientes 5 años (1993-1998). En resumen, estos nuevos objetivos fueron:

  • conseguir un mapa genético con resolución de 2 a 5 cM entre marcadores.
  • conseguir un mapa físico con STS espaciados regularmente cada 0.1 Mb (lo que significaba identificar y localizar la posición de —como mínimo— unos 30.000 STS).
  • desarrollar nuevas tecnologías para la identificación de genes a partir de ADN genómico.
  • desarrollar nuevas tecnologías de secuenciación y completar 80 Mb de secuencia confirmada para todos los organismos que estaban siendo secuenciados por los distintos proyectos.
  • Potenciar la genómica comparada: completar las secuencias de E. coli, S. cerevisiae y C. elegans, y comenzar los proyectos de secuenciación de los genomas de Drosophila y de ratón.

Cuando en 1998 se revisaron los avances realizados en esos cinco años, con el fin de diseñar un nuevo plan quinquenal, los resultados habían sido realmente prometedores: en Septiembre de 1994 se publicó un mapa genético de todo el genoma humano integrado por 4.000 marcadores tipo microsatélite y 1.800 marcadores tipo RFLP, con una distancia media entre marcadores de 0.7 cM. Esto superaba en más de 3 años el objetivo propuesto inicialmente. Por su parte, Généthon publicó en 1995 otro mapa físico de YACs que estaba formado por 255 contigs (con un tamaño medio de 10 Mb cada contig) y cubría el 75% del genoma humano. Durante esos años se continuaron desarrollando nuevos marcadores tipo STS, hasta llegar en 1998 a un mapa que contenía 52.000 STS (casi el doble de los inicialmente propuestos).

Por lo que respecta a la secuenciación, en octubre de 1998 se había obtenido un total de 180 Mb de secuencia del genoma humano (6% del total), además de 111 Mb de secuencia de otros organismos, muy por encima de lo previsto en el plan 1993-1998. Además, se había completado la secuencia de E. coli y de S. cerevisiae, éste último el primer organismo eucariota en ser secuenciado totalmente. Esto fue posible gracias a importantes avances en la tecnología de secuenciación, que se hizo progresivamente más rápida, fiable y barata. Posteriormente, en diciembre de 1998, se completó la secuencia de C. elegans, el primer organismo multicelular secuenciado en su totalidad con un genoma de unas 97 Mb.

Por tanto, en 1998 el PROYECTO GENOMA se fijó un nuevo plan de objetivos hasta el año 2003, en el que se incluían 6 metas concretas:

  • Completar la secuencia del genoma humano para 2003 (año que coincidía con el 50º aniversario del descubrimiento de la doble hélice por Watson y Crick), creando un primer borrador de trabajo en el 2001. Este objetivo se aceleró enormemente por la competencia de la empresa privada Celera Genomics (también iniciativa de Craig Venter), que se propuso secuenciar todo el genoma humano, utilizando una estrategia distinta al consorcio internacional del PROYECTO GENOMA, con el fin de obtener la propiedad intelectual y poder explotar esa información con fines comerciales. A pesar de los problemas suscitados inicialmente por la fuerte competencia entre ambos proyectos, el 26 de junio de 2000 se produjo el anuncio oficial de que se había alcanzado un primer borrador del 87% de la secuencia del genoma humano. Este primer borrador fue publicado el 15 de Febrero de 2001 en las revistas Nature (el mapa del Consorcio Internacional) y Science (el mapa de Celera Genomics).

Figura 1.4: el video muestra el proceso general de utilizado por el Consorcio Internacional para la secuenciación del Genoma Humano.

  • Continuar el desarrollo y la innovación de las tecnologías de secuenciación. Como ya se ha comentado, éste ha sido un factor determinante en el avance del PROYECTO GENOMA.
  • Estudiar la variación en el genoma humano. Como hemos visto, los SNP se encuentran en el genoma humano a razón de 1 por cada kilobase, como promedio, y representan las diferencias genéticas entre individuos de una misma especie. Como se verá en el Capítulo 11, la creación de mapas densos de SNP permitirá llevar a cabo estudios de asociación para detectar los genes que están implicados en enfermedades complejas, debidas a alteraciones en muchos genes —siendo la contribución de cada gen a la enfermedad pequeña? y, por tanto, difíciles de detectar por otros métodos de ligamiento paramétrico.
  • Desarrollar tecnología para la “genómica funcional”, es decir, identificar todos los genes y determinar cuál es la función de cada gen. La gran revolución en las estrategias de identificación de regiones codificantes (es decir, genes) comenzó con la idea de Craig Venter de secuenciar al azar y a gran escala fragmentos de ADNc de bibliotecas obtenidas a partir de diversos tejidos. Estos fragmentos de secuencia se denominaron "Etiquetas de Secuencia Expresada" (EST, Expressed Sequence Tags), ya que —en el fondo— cada una representa un fragmento de un ARNm (una secuencia expresada en un tejido concreto). En pocos años, la base de datos de EST creció de manera exponencial, con cientos de miles de secuencias expresadas procedentes de distintas bibliotecas de ADNc. Como algunos de estos EST proceden de un mismo ARNm, se creó una colección no redundante llamada UNIGENE que agrupa los EST por familias, siemdo cada familia representativa de un único ARNm. Poco después comenzaron también proyectos internacionales para mapear secuencias de UNIGENE, de manera que en 1994 se publicó un primer mapa con la localización de 16.000 EST correspondientes a genes distintos, y en 1998 se publicó un segundo mapa de 41.664 EST, que representaban 30.181 genes distintos. Cuando se conozca el catálogo completo de genes de nuestro genoma, será necesario estudiar la expresión de cada gen en distintos tejidos y en distintas situaciones fisiológicas y patológicas, en respuesta a distintos factores ambientales, etc. Lógicamente, esto será el objeto de la investigación biomédica de buena parte del siglo XXI.
  • Genómica Comparada. El análisis comparado de los genomas de varias especies es de gran utilidad para identificar mecanismos biológicos conservados durante la evolución (por lo que son especialmente importantes), estructura y función de genes ortólogos, etc. Aunque el plan para 1998-2003 se propuso conseguir la secuencia completa del genoma de Drosophila para el año 2002, esta meta se cumplió en abril del año 2000 gracias a la colaboración de laboratorios y Universidades con Celera Genomics, descifrando unas 120 Mb de secuencia que comprenden la práctica totalidad de la eucromatina de este insecto. El nuevo gran reto ahora es conseguir la secuencia completa del genoma de otras especies de mamíferos: el primer borrador completo del genoma de ratón se obtuvo en 2002 y el del genoma de chimpancé en 2005.
  • Implicaciones éticas, legales y sociales del PROYECTO GENOMA. Es importante tener consciencia de la influencia que va a tener el Proyecto Genoma y sus aplicaciones sobre los individuos y las sociedades. Cuestiones como el diagnóstico de enfermedades que no tienen tratamiento, la extensión de una mentalidad eugenésica que lleve a la discriminación por razón de deficiencias genéticas, el diagnóstico prenatal de alteraciones genéticas que confieren predisposición a sufrir enfermedades que se manifestarán en la edad adulta, la detección de rasgos psicológicos con base genética, la confidencialidad de la información genética de los individuos (y la posible discriminación laboral) serán una constante en los debates sociales de este siglo, y es importante llevar a cabo una labor de divulgación seria para que la sociedad pueda discutir de modo sosegado y bien fundamentado las bases éticas sobre las que sostener las aplicaciones biomédicas de la biotecnología en los años que se avecinan.
  • Desarrollo de herramientas bioinformáticas (bases de datos y herramientas de análisis de datos) que puedan ser compartidas por la comunidad científica. Será especialmente importante el desarrollo de herramientas informáticas que permitan identificar exones y predecir la estructura de genes en grandes secuencias genómicas, así como plataformas de genómica funcional para el análisis de la expresión de miles de genes a la vez.
  • Formación en genómica: favorecer que científicos y académicos se dediquen a la investigación genómica y a divulgar y aumentar el conocimiento público de los distintos aspectos del PROYECTO GENOMA.

Finalmente, la primera versión esencialmente completa del genoma humano fue anunciada oficialmente el 14 de abril de 2003, cubriendo un total de 3.069 Mb (92.3% del total estimado del genoma humano) con un 99.99% de fiabilidad en cada posición secuenciada. El análisis de la secuencia publicada permite hacerse una idea bastante aproximada de la estructura de nuestro genoma, su composición y algunas de sus características funcionales, como se explica a continuación.

 

 
© Universidad de Navarra | contacto fnovo@unav.es | 2011-2012 Creative Commons License Esta obra está bajo una licencia de Creative Commons.