FACULTADES DE CIENCIAS Universidad de NavarraOpenCourseWare
 DEPARTAMENTO DE GENéTICA
  Asignatura: Human Molecular Genetics
 

1.4 El Proyecto ENCODE

ENCODE es el acrónimo de ENcyclopedia Of DNA Elements, y se trata de un proyecto de análisis exhaustivo del genoma humano, que comenzó con un proyecto piloto en el que se estudió sólo el 1% del total. Al final se ha obtenido una imagen muy detallada que muestra todos los transcritos primarios y maduros, así como la localización de las principales modificaciones de histonas, los sitios de unión de factores de transcripción, sitios de inicio de la transcripción, sitios hipersensibles a DNAsa, etc; todo ello unido a datos de expresión génica, de replicación y del número de copia de esas mismas regiones.

Al principio, lo más llamativo de este análisis fue la gran cantidad de transcripción que se detecta a lo largo del genoma humano: un 15% de los nucleótidos están incluidos en transcritos maduros, y una gran parte del resto de las bases (hasta el 90%) forman parte de transcritos primarios en algún tejido. Además, se observan muchos sitios de inicio de la transcripción distintos a los anotados previamente, a menudo alejados de lo que se consideraba el inicio del gen. Igualmente, se identificaron unos 200 pseudogenes (60% procesados y 40% no-procesados), de los cuales una quinta parte se transcriben. Esto, extrapolado al resto del genoma significa unos 20.000 pseudogenes en total.

Aunque posteriormente se ha visto que la intensidad de la transcripción “basal” no es tan alta, los datos aportados por ENCODE indican que los genes son más complejos de lo que se pensaba hasta ahora: en vez de la visión tradicional, según la cual un gen da lugar a uno o varios transcritos alternativos que codifican una proteína en sus varias isoformas, parece claro que una región genómica puede codificar distintos productos proteicos y además dar lugar a otros transcritos (no necesariamente codificantes de proteínas) en ambas cadenas. Todo esto ha llevado a replantear el concepto de gen, que en la era post-ENCODE se definiría como “la unión de las secuencias genómicas que codifican un conjunto coherente de productos funcionales, potencialmente solapantes”. Esta definición hace hincapié en el producto funcional que se codifica (de ahí el uso de “coherente” para indicar que se trata de codificar una proteína o un ARN). Lo más novedoso de esta definición es que las regiones no traducidas (UTR) no formarían parte del gen, quedando incluidas –junto con los elementos reguladores- en la categoría de “regiones asociadas con genes”. La definición alternativa, más acorde con el pensamiento actual, de que un gen es “la región genómica que codifica un conjunto de transcritos alternativos solapantes”, aunque codifiquen distintos productos proteicos, es problemática a la luz de los datos aportados por el proyecto ENCODE. Si existe mucho solapamiento de transcritos, la aplicación de esta definición daría lugar a un número pequeño de genes muy extensos, los cuales además tendrían escaso significado biológico al codificar productos funcionales diversos (un mismo gen podría dar lugar a proteínas distintas y/o ARN no codificantes). La nueva definición probablemente aumentará el número total de genes del genoma, pero al estar centrada en el producto final es más informativa de la función de cada gen concreto.

Figura 1.11: El video explica la nueva definición de "gen", a la luz de los resultados de ENCODE. La siguiente figura (tomada del Genome Browser) muestra una región ENCODE:

 


Otra sorpresa del proyecto ENCODE ha sido comprobar que un alto porcentaje de los transcritos detectados no codifican proteínas, por lo que la categoría de "ARN no codificantes" seguirá aumentando en el futuro. En concreto, los últimos años han sido testigos de la explosión de un nuevo tipo de ARN no codificantes largos (en inglés lncRNAs), con funciones reguladoras importantes que se están empezando a conocer poco a poco. Se trata de ARNs con un tamaño superior a 200 nucleótidos que maduran mediante ayuste, pero que no codifican proteínas. Su número va en aumento, llegando a estimarse que cubren unas 10 a 20 veces más de secuencia genómica que los ARNs codificantes de proteínas.

Entre las funciones que desempeñan los lncRNAs, se ha visto que son capaces de inhibir múltiples genes en trans (es decir, genes que están en cromosomas distintos), como en el caso del lincRNA-p21. Particularmente interesantes son otras funciones novedosas de algunos lncRNAs. Por ejemplo, se ha demostrado que actúan como andamios sobre los que se reclutan distintos factores reguladores de la expresión génica (modificadores de la cromatina, que se verán en el capítulo siguiente). Éste es el caso de un lncRNA llamado HOTAIR, que es capaz de llevar un complejo represor a varios genes del genoma. Otros lncRNAs estimulan la expresión de genes vecinos, bien porque ellos mismos tienen actividad potenciadora o bien porque se asocian con co-activadores de la transcripción. Finalmente, los lncRNAs también parecen estar implicados con la formación de asas de cromatina, sirviendo como puntos de anclaje sobre los que se forman compartimentos nucleares (paraspeckles, por ejemplo).

En conjunto, los resultados del proyecto ENCODE son apasionantes y enriquecen enormemente nuestra visión del genoma humano, su regulación y funcionamiento, lo cual abrirá horizontes insospechados en la investigación genómica y tendrá fuertes implicaciones biomédicas en un futuro cercano. .

 

 
© Universidad de Navarra | contacto fnovo@unav.es | 2011-2012 Creative Commons License Esta obra está bajo una licencia de Creative Commons.