FACULTADES DE CIENCIAS Universidad de NavarraOpenCourseWare
 DEPARTAMENTO DE GENéTICA
  Asignatura: Human Molecular Genetics
 

Tema 1.2 Estructura del genoma humano y la variación inter-individual

El genoma humano nuclear tiene un tamaño aproximado de 3.200 Mb (megabases), es decir tres mil doscientos millones de pares de bases. Esta cifra total incluye unas 2.950 Mb de eucromatina y unas 250 Mb de heterocromatina (formada, como veremos, por ADN satélite). Esta cifra se refiere al genoma haploide, de manera que las células somáticas (diploides) contienen el doble.

Figura 1.5: este cuadro explicativo muestra una visión general de los distintos tipos de secuencias que constituyen el genoma humano.

Una primera clasificación del genoma humano distingue, por un lado, los genes y secuencias relacionadas con genes (exones, intrones, regiones no traducidas que contienen elementos reguladores, etc), y por otro todo el ADN que está entre los genes, llamado ADN extragénico o “de relleno” y que no codifica ninguna proteína ni contiene ningún elemento funcional. Curiosamente, la mayor parte del genoma humano (un 70%) está formada por este último, de forma que sólo un 30% del genoma humano incluye secuencias relacionadas con genes. Lo más sorprendente es que de este 30% sólo un 5% está constituído por ADN codificante (exones), siendo el resto ADN no-codificante asociado a genes. Por tanto, resulta que sólo un 1,5-2% del total del genoma humano es ADN codificante. El ADN extragénico está formado, sobre todo, por los componentes repetitivos del genoma humano que se explicarán más adelante, aunque también hay secuencias únicas o en bajo número de copia.

Desde la publicación del primer borrador del Genoma Humano en febrero de 2001, podemos dar unos valores promedio estimados a partir de los datos publicados:

  • Se estima que el genoma humano contiene en torno a los 20.000 - 25.000 genes.
  • Alrededor de un 50% del genoma humano está constituido por ADN repetitivo.
  • Se puede estimar la densidad media de genes es de 1 gen cada 100 kb, aunque existen regiones ricas en genes (algunas zonas del cromosoma 19, por ejemplo) y otras regiones que son muy pobres en genes (como el cromosoma Y). Por tanto, se puede deducir una frecuencia media de 10 genes por cada Mb de secuencia.
  • El tamaño promedio de un gen humano es de 20-30 kb, aunque hay grandes diferencias de unos genes a otros.
  • El número de exones que forman un gen es muy variable (desde genes que tienen un solo exón hasta algunos genes con 100 exones ó más), pero podemos establecer un valor promedio de 7-8 exones por gen.
  • El tamaño medio de un exón es de 150 nucleótidos. Por lo que respecta a los intrones, en cambio, existe una enorme variabilidad de tamaños, y no es infrecuente encontrar en casi todos los genes algún intrón de gran tamaño.
  • El tamaño medio de un ARNm es de 1,8-2,2 kb incluyendo las regiones no-traducidas flanqueantes. La longitud media de una región codificante es de 1,4 kb.

Una de las características más evidentes del borrador de nuestro genoma es su heterogeneidad. En efecto, la secuencia no es uniforme, sino que muchas de sus características (riqueza en C+G frente a A+T, riqueza en genes, etc) se distribuyen heterogéneamente, con regiones de gran abundancia flanqueadas por regiones en que esos parámetros son más escasos. Así por ejemplo, el contenido medio de G+C del genoma humano es del 41%, menor de lo teóricamente esperado. Además, si el genoma se divide en "ventanas" de 20 kb se observan regiones con valores muy alejados del promedio, con una dispersión 15 veces mayor de lo que sería esperable si la distribución fuese uniforme. La distribución de %G+C de estas ventanas no se ajusta a una distribución normal, sino que está desviada hacia valores bajos.

Además, se ha comprobado que los genes tienden a concentrarse en las ventanas más ricas en G+C. Esto se conocía ya de antiguo, y de hecho se había acuñado el término isocoro para designar las regiones genómicas que son homogéneas en cuanto al contenido en G+C y que pueden separarse mediante gradientes de densidad. Se distinguen isocoros L e isocoros H, según su contenido en G+C sea bajo (Low) ó alto (High), y dentro de cada isocoro hay varios subgrupos. La tabla que se presenta a continuación resume algunas características importantes de los distintos isocoros:

Isocoro

% GC

% del

genoma

Contenido Genes %

Mb ADN

Densidad

de genes

L1

38

30

48

1,860

1 cada 130 kb

L2

41

32

H1

44

19

27

870

1 cada 100 kb

H2

49

10

H3

53

9

25

270

1 cada 35 kb

Como puede apreciarse, existe una relación directa entre el contenido de una región genómica en nucleótidos G+C y su riqueza en genes. Es decir, hay en el genoma humano unas regiones con mayor riqueza de genes, regiones que a su vez son las que tienen un mayor porcentaje de nucleótidos G+C.

Otro hallazgo inesperado en nuestro genoma ha sido la presencia de mayor número de duplicaciones del que se había estimado hasta entonces. De hecho, el análisis muestra alrededor de un 5% de duplicaciones segmentarias, definidas como dos ó más segmentos cromosómicos >1 kb con >90% de identidad de secuencia; dicho nivel de homología corresponde a una antigüedad de unos 40 millones de años. Las duplicaciones intracromosómicas (las copias están en el mismo cromosoma) tienen un tamaño medio de unas 100 kb, mientras que las duplicaciones intercromosómicas (entre cromosomas distintos) son más pequeñas (10-50 kb). Las duplicaciones segmentarias son más frecuentes en regiones centroméricas y cerca de los telómeros (donde pueden llegar a constituir un 25% de la secuencia). Los centrómeros, en concreto, están flanqueados por regiones ricas en duplicaciones intercromosómicas procedentes de regiones eucromáticas de otros cromosomas, que se han ido transponiendo a zonas pericentroméricas a una velocidad de 6-7 eventos por millón de años durante la evolución de primates. Las duplicaciones intracromosómicas pueden dar lugar a alteraciones genómicas, como veremos en un Tema posterior.

Figura 1.6: el video ilustra la estructura de los distintos tipos de duplicaciones segmentarias que aparecen en el genoma humano, con un ejemplo de la región pericentromérica del cromosoma 7.

Además de las duplicaciones segmentarias, se ha visto que hay muchas otras regiones relativamente grandes del genoma que están en distinto número de copia en personas diferentes. Por tanto, constituyen un tipo de polimorfismo, de ahí que se denominen LCV (Large-scale Copy number Variations), CNP (Copy Number Polymorphisms) o CNV (Copy Number Variants), que es el nombre más utilizado en la actualidad. Una característica de todas estas regiones es que están flanqueadas por duplicaciones segmentarias, y esto hace pensar que la variación en el número de copias es el resultado de reordenaciones entre esos elementos flanqueantes. En los últimos años, las nuevas tecnologías han permitido elaborar un catálogo bastante exhaustivo de estas variantes, con más de ocho mil regiones tipo CNV que comprenden en total casi un 4% de la secuencia del genoma humano. Dos personas tomadas al azar tendrán diferencias en más de mil CNV, lo que supone una gran fuente de variabilidad genética inter-individual ya que cada una de esas regiones incluye uno o más genes. Estudios recientes han asociado alguna de estas variantes con la susceptibilidad a desarrollar enfermedades, especialmente de tipo neurológico. Por ejemplo, en 2011 se vio que las personas con una duplicación de una región del cromosoma 7 tienen un riesgo 15 veces superior de desarrollar esquizofrenia que las personas sin esa variante. Otro estudio, realizado sobre más de 15.000 niños con discapacidades congénitas, demostró que hasta un 15% de estas patologías es atribuible a un número anormal de copias de una región genómica. Es previsible que en los próximos años se sigan descubriendo CNV que confieren un alto riesgo de padecer una enfermedad común.

El análisis de la secuencia también ha mostrado la alta cantidad de pseudogenes que hay en el genoma humano. Como su nombre indica, los pseudogenes son versiones “incorrectas” de genes, que contienen diversos tipos de mutaciones y habitualmente no se transcriben. Se dividen en pseudogenes no procesados y pseudogenes procesados. Los primeros son copias de un gen, habitualmente originadas por duplicación del gen original y posteriores mutaciones que hacen que la copia pierda su capacidad codificante. Contienen exones e intrones, pero que carecen de promotor y habitualmente tienen codones de parada prematuros. En cambio, los pseudogenes procesados son copias del ARN mensajero de un gen, que se ha retrotranscrito e insertado en otra posición del genoma (de ahí que se denominen también retropseudogenes). No tienen intrones, y tampoco tienen capacidad codificante por la ausencia de promotor y por la presencia de codones de parada. Se han identificado unos 11.000 pseudogenes en el genoma humano, de los que la mayor parte (unos 8.000) son pseudogenes procesados. En total, se estima que el número de pseudogenes en nuestro genoma puede llegar a unos 20.000. De todas formas, todos los pseudogenes detectados se originan a partir de tan sólo unos 2.500 genes funcionales, de modo que la mayor parte de los genes no tienen ningún pseudogen en el genoma.

Figura 1.7: el video muestra esquemáticamente la estructura de los distintos tipos de pseudogenes que aparecen en el genoma humano.

Recientemente se han encontrado 481 segmentos >200 pares de bases totalmente conservados (100% de identidad sin gaps) en rergiones ortólogas de humano, rata y ratón, y la gran mayoría están también conservados en pollo y perro (95 and 99% de identidad, respectivamente). Muchas también están conservadas en pez. Estos "elementos ultraconservados" se solapan con exones de genes implicados en el procesamiento de ARN, y también son abundantes en intrones de genes relacionados con el desarrollo o con la regulación de la transcripción. Junto con las más de 5000 secuencias >100 nucleótidos que están totalmente conservadas en los 3 mamíferos secuenciados, estos fragmentos constituyen una nueva clase de elementos genéticos cuya función está por determinar, pero el hecho de que están más conservados que las proteínas indica que deben jugar algún papel importante.

También es importante dedicar unas líneas a describir la presencia de genes que dan lugar a microARN. Como es sabido, el estudio del mecanismo de interferencia de ARN ha llevado a la identificación de ARN interferentes endógenos en los genomas de eucariotas, incluido el genoma humano. Estos ARN se denominan microARN (miARN) y se transcriben a partir de genes con un promotor de ARN-polimerasa II. Estos genes tienen un segmento palindrómico, de modo que el ARNm primario forma un pri-miARN que contiene una horquilla de ARN bicatenario; este pri-miARNm es procesado dentro del núcleo de la célula por una ARNasa tipo III llamada DROSHA y esto da lugar a un pre-miARN, una ARN bicatenario con forma de horquilla de unos 70 nucleótidos de tamaño. El pre-miARN sale del núcleo y es procesado en el citoplasma por Dicer, originando un miARN de unos 22 nucleótidos. Éste entra a formar parte del complejo RISC (denominado miRISC para los miARN) y regula la expresión de genes diana mediante degradación de sus mensajeros o por represión de la traducción. Actualmente se han identificado más de 300 genes de miARN en el genoma humano, y se calcula que puede haber en torno a 500. La mayoría de estos genes se localizan en intrones de genes codificantes, y además están bastante conservados en primates. Dado que cada uno de estos miARN puede regular la expresión de varios genes diana, se estima que hasta un 20-30% de todos los genes del genoma humano pueden estar regulados por miARN, lo que les confiere una extraordinaria importancia.

La secuenciación del genoma humano ha permitido también estudiar la variación genética inter-individual, es decir, las diferencias genéticas que están en la base de las diferencias fenotípicas entre individuos. Esto tiene gran relevancia médica, porque muchas de estas variantes pueden ser también causa de la distinta susceptibilidad a desarrollar enfermedades o la diferente respuesta a fármacos que tienen personas distintas. Uno de los tipos más importantes de variabilidad genética es el constituido por los cambios en un nucleótido de la secuencia, conocidos ?como hemos visto? con el nombre de SNP. Uno de los objetivos del PROYECTO GENOMA HUMANO era el estudio de la diversidad genética, y esto ha cristalizado en otro proyecto internacional denominado Proyecto HapMap que se propone precisamente identificar los SNP más frecuentes en el genoma humano en individuos de diferentes grupos étnicos. En octubre de 2005, el Proyecto Hapmap publicó un primer mapa que contiene 1.007.329 SNP con una distancia media entre ellos de 5 kb, con una frecuencia del alelo más frecuente igual ó superior al 5% (es decir, presentes en al menos el 5% de la población). Todos estos SNP fueron genotipados en 269 individuos de cuatro grupos raciales: 90 de raza yoruba, de Nigeria; 90 caucasianos de Utah; 45 de raza han, de China; y 44 japoneses. La segunda fase de este Proyecto, publicada en 2007, genotipo casi tres millones de SNPs en esta misma muestra. En la fase III, concluida en 2009, se genotiparon 1,6 millones de SNPs en 1184 individuos de 11 poblaciones distintas de todo el planeta. La inspección de estos mapas permite hacerse una idea de la variación existente en el genoma, tanto entre individuos como entre distintos grupos geográficos. Además, estos datos han permitido comprobar que esta variación se agrupa en bloques, de modo que todos los SNP de un mismo bloque se heredan juntos. En un capítulo posterior veremos la importancia de estos bloques para estudiar la asociación de SNP concretos con la susceptibilidad a padecer enfermedades.

Figura 1.8: Como se muestra en este video, los alelos de SNP cercanos están a menudo en desequilibrio de ligamiento y forman haplotipos que se heredan en bloque.Estos bloques haplotípicos tienen gran importancia para entender la estructura del genoma humano en distintas poblaciones, identificar genes relacionados con enfermedades complejas y detectar regiones genómicas de asociadas con distintos rasgos fenotípicos.

Finalmente, se ha catalogado también otro tipo de variación consistente en polimorfismos de inserción/deleción pequeños (de tamaños entre 1 nucleótido a 10 kb). Se han detectado varios cientos de miles, y se estima que en total hay alrededor de 1,5 millones de estos polimorfimos en el genoma humano. Aunque se distribuyen por todo el genoma, se ha visto que en algunas regiones son especialmente frecuentes. Muchos de ellos están dentro de genes, y pueden causar alteraciones cuando afectan al promotor o a la región codificante (exones).

Los últimos años han presenciado una revolución en las tecnologías de secuenciación, lo que ha permitido comenzar proyectos para leer la secuencia de genomas completos de muchas personas. El proyecto internacional más importante, en este sentido, se llama 1000 Genomes, y ya está dando sus primeros frutos. En 2010 se publicaron los primeros resultados de este proyecto, en el que se secuenciaron 179 genomas de 4 poblaciones distintas. Según estos datos, cada persona es portadora de unos 3 millos de variantes genéticas, de las cuales diez mil son potencialmente patogénicas, afectando en promedio a 250 genes. Además, 60 de esas variantes han sido previamente asociadas con alguna enfermedad.


 
© Universidad de Navarra | contacto fnovo@unav.es | 2011-2012 Creative Commons License Esta obra está bajo una licencia de Creative Commons.