Discusión Contig 2
El contig 2 es una secuencia de DNA formada por un total de 2434 pb y obtenida a partir del ensamblaje de 17 fragmentos que se solapaban. Para realizar el ensamblaje de la secuencia, se utilizó la herramienta CAP3. Esta herramienta bioinformática permite el ensamblaje de múltiples secuencias de material genético, al generar solapamientos entre secuencias. La secuencia obtenida mediante el ensamblaje de los fragmentos fue la siguiente. (Ver fichero 2. Fichero_Contig)
Una vez obtenida la secuencia de nucleótidos que forman el contig, pudo procederse a caracterizarla mediante la utilización de diferentes herramientas bioinformáticas como DNA Stats y DNA Molecular Weight.
Entre los datos obtenidos, tenemos por ejemplo el porcentaje en contenido de bases AT y CG, que es el siguiente:
Contenido en bases GC: 39,73%
Contenido en bases AT: 60,27%
La disparidad entre ambos pares de bases resulta notable, y puede deberse a que el contig no es excesivamente grande, y gran parte de la secuencia no codifica para ningún gen, o codifica para un intrón dentro de la estructura génica. Típicamente, las zonas con mayor contenido en bases de guanina y citosina se encuentran en regiones exónicas, y al no ser ni muy abundantes ni muy amplias en el contig, encontramos que la secuencia de éste cuenta con una mayoría de bases de adenina y timina.
Por otro lado se obtuvo, utilizando también las herramientas bioinformáticas antes mencionadas, el valor del peso molecular de la cadena de nucleótidos, atendiendo al número de bases de cada tipo con las que cuenta, resultando el peso de la molécula en 752044.27 Daltons.
Además de las características físicas que la molécula presenta, también se realizó la búsqueda de secuencias repetitivas o de transposición que pudieran existir en el contig.
Utilizando la herramienta CENSOR de Giri, se obtuvieron los siguientes resultados para la existencia de algún transposon en la secuencia del contig:
La secuencia obtenida es muy similar a la de un retrotransposon, pero su longitud (96 pb) es bastante inferior a la longitud mínima establecida como criterio por el grupo (226 pb) para considerar esa secuencia un transposón, por mucho que el criterio de similitud (similitud de 0.85 frente al mínimo de 0.8 impuesto como criterio del grupo) se cumpla, ya que resulta más importante que dicho grado de similitud se cumpla para secuencias más largas, lo que supondría minimizar la posibilidad de que la identidad entre secuencias pudiera deberse al azar. Por tanto, podemos concluir que la herramienta CENSOR, utilizada en este caso para buscar los transposones más comunes en seres humanos, debido a que el contig corresponde a una secuencia de DNA de Homo Sapiens, no ha encontrado, según los criterios el grupo, ninguna secuencia que pueda considerarse un transposón en la cadena de nucleótidos estudiada.
Por otro lado, se buscaron otro tipo de secuencias de repetición, ya fueran DNA microsatélite o repeticiones en tándem, utilizando la herramienta Microsatellite Repeats. Los resultados obtenidos para el contig 2 fueron los siguientes:
-
Según Microsatellite Repeats Finder, se encontraron hasta 15 fragmentos de repetición identificados como DNA microsatelite, con diferentes secuencias de repetición y número de repeticiones.
Puede observarse la predominancia de la adenina y la timina, en las secuencias de repetición. Esto ayudaría a reforzar la teoría de que la predominancia de estas bases se debería a un alto contenido en material genético que no codifica exones, ya que normalmente, los fragmentos de DNA microsatélite se encuentran en zonas no codificantes del genoma. La cantidad de repeticiones de estos fragmentos se ha demostrado importante en el desarrollo de algunas enfermedades hereditarias, e incluso en estudios de paternidad o identificación en estudios forenses, ya que suelen ser características para individuos emparentados generalmente. En este enlace puede verse la disposición de las secuencias microsatélite de repetición en el contig (Ver 2.Fichero_contigTransposonesyRepetitivas)
Una vez caracterizado el contig y buscados los posibles elementos de transposición o repetición, se procedió a estudiar con mayor profundidad la secuencia para buscar los posibles genes que pudiera contener.
Para la búsqueda de genes se empleó una estrategia de búsqueda de genes ab initio, se utilizaron la herramienta ORF Finder, y también Translate de ExPASy. Los resultados obtenidos gracias a los programas informáticos utilizados fueron los siguientes:
ORF Finder:
Se encontraron diferentes ORFs en los 6 marcos de lectura posibles para el contig, y tras esto, pasó a comprobarse cuáles eran los ORFs que podrían corresponder con secuencias génicas. Se utilizó para ello la herramienta Translate de ExPASy, que permite traducir la secuencia de nucleótidos a aminoácidos. Estos fueron los resultados obtenidos para los diferentes marcos de lectura. (Ver 2.Fichero_ORFs)
Se obtuvieron, realizando un BLAST con las secuencias de aminoácidos marcadas como ORFs, los siguientes resultados:
-
Para el primer marco de lectura (5’-3’ Frame 3), el ORF Met F I P L I F L P Q L L G N V L V C V L A H H F G K E F T P P V Q A A Y Q K V V A G V A N A L A H K Y H Stop resultó coincidir con parte de la secuencia de la proteína conocida como cadena beta de la hemoglobina humana, tal y como aparece en esta imagen correspondiente al alineamiento:
-
Para el primer marco de lectura (5’-3’ Frame 1), el ORF Met V H L T P E E K S A V T A L W G K V N V D E V G G E A L G R L V S R L Q D R F K E T N R N W A C G D R E D S W V S D R H Stop volvió a corresponder (aunque con una menor similitud) a la cadena beta de la hemoglobina humana, tal y como aparece en la siguiente imagen:
Por último, ya que en los marcos de lectura en dirección 3’-5’ ninguno de los ORF posibles correspondieron con secuencias proteicas mediante el análisis con BLAST, los resultados para el tercer y último marco de lectura en dirección 5’-3’ revelaron la presencia de un ORF, Met K L V V R P W A G W Y Q G Y K T G L R R P I E T G H V E T E K T L G F L I G T D S L C L L V Y F P T L R L L V V Y P W T Q R F F E S F G D L S T P D A V Met G N P K V K A H G K K V L G A F S D G L A H L D N L K G T F A T L S E L H C D K L H V D P E N F R V S L W D A Stop
que volvió a coincidir con la secuencia de la beta globina de la hemoglobina humana.
La aparición de varios fragmentos de una misma proteína en diferentes ORFs podría explicarse por la presencia en la secuencia del gen, como luego se explicará, de 3 exones diferentes, o simplemente, por cambios en la pauta de lectura que hacen que aparezcan fragmentos de la proteína con un mayor o menor grado de identidad y similitud con la secuencia de la cadena beta de la hemoglobina humana. Por tanto, y en todo caso, todo parecía indicar que el gen que se encontraba en el interior del contig número 2 era el de la cadena beta de la hemoglobina de Homo Sapiens.
Una vez conocido el gen que aparecía dentro del contig se procedió a la caracterización de su secuencia, en cuanto a su localización, estructura de exones e intrones, la secuencia de nucleótidos que lo forman, y la secuencia de aminoácidos resultante.
El gen HBB, o gen de la cadena beta de la hemoglobina humana, aparece en el cromosoma 11, concretamente en la posición 11p15.5, ocupando la secuencia entre los pares de bases de nucleótidos 5225466 y 5227071.
Al concluir gracias a la herramienta Translate de ExPASy que esa era la proteína que correspondía a la secuencia de nucleótidos del contig, se procedió a buscar información sobre el gen. Utilizando diferentes bases de datos, como por ejemplo Ensembl, obtenemos información valiosa acerca de la estructura del gen (búsqueda del cDNA, secuencia génica y proteica). Como se ha expuesto anteriormente, se observa que la estructura del gen presenta 3 exones y 2 intrones, siendo el segundo de éstos de tamaño especialmente grande, ya que ocupa prácticamente la mitad del tamaño de la estructura génica. Se obtuvo la secuencia del gen HBB en la misma base de datos, y comparando esta secuencia con la presente en el contig, se comprueba que el gen aparece completo en el mismo, y sin ninguna variación. Por tanto, el contig contiene tanto los exones, como los intrones que componen el gen, así como las regiones UTR presentes en la secuencia del gen en las regiones 5’ y 3’, que marcan los codones de inicio y de terminación de la traducción del mRNA maduro a proteína. Resaltando las diferentes regiones, obtenemos la estructura del gen al completo. (Ver 2. Fichero_Gen)
Esta sería, de variar las timinas por uracilos, la secuencia de mRNA inmaduro de la proteína, y en caso de que se eliminaran intrones y UTRs, tendríamos el cDNA que codificaría para la proteína. (Ver 2. Fichero_cDNA)
Conocida la secuencia de nucleótidos que dará lugar a la proteína, sólo tendríamos que traducir la primera siguiendo el código genético para obtener la segunda. La traducción del gen a proteína puede verse en el fichero 2. Fichero_Proteína.
Una vez obtenidas las secuencias del gen, del cDNA y de la proteína, se procedió a realizar una búsqueda de ortólogos de dichas secuencias que pudieran ser utilizados por todo el grupo (en caso de que los otros posibles genes encontrados fueran también humanos, lo que sería esperable), para comprobar el grado de similitud entre las secuencias de diferentes organismos. Los organismos elegidos para realizar el alineamiento de ortólogos fueron el mono verde africano y la vaca, y los alineamientos obtenidos (tanto para el CDS, que correspondería a la secuencia del cDNA sin UTRs, como para la secuencia proteica) son los que aparecen en 2. Fichero_ORTOLOGOS.
Después de ver los alineamientos para los dos ortólogos diferentes, y su grado de similitud y cobertura de la secuencia, podemos concluir que existe gran conservación tanto en la secuencia del gen como en la de la proteína. Esto podría explicarse por varias razones, y dos de las más importantes son:
-
La relativa cercanía filogenética entre los organismos seleccionados y el ser humano. Los tres organismos seleccionados para el alineamiento de secuencia son mamíferos, separados evolutivamente por unos pocos millones de años, y este es un hecho que podría explicar la poca variación en la secuencia.
-
Las características de la hemoglobina en cuanto a su modo de actuar en el organismo (que serán expuestas más adelante), hacen que sea interesante que se conserve a lo largo de la evolución. La estructura que adquiere la hemoglobina es posible en gran medida por las 4 subunidades de globina (2 alfa y 2 beta) que la conforman. Estas subunidades, y la disposición que adquieren permiten que la hemoglobina presente un mecanismo de acción caracterizado por la cooperatividad positiva en la unión al oxígeno para transportarlo a través de la sangre. Al ser un mecanismo de transporte que presenta prácticamente un 100% de unión entre la proteína y su sustrato, es de suponer que su conservación este evolutivamente favorecida, ya que no hace falta variar mucho un mecanismo que en condiciones normales funciona casi al 100% de su capacidad
Después de realizar el alineamiento de ortólogos, y habiendo visto anteriormente que la secuencia del contig encajaba a la perfección con la secuencia original del gen, y que por tanto no contaba con ningún polimorfismo en la secuencia, en el caso de este contig no será necesario diseñar los primers requeridos para la detección de dichos polimorfismos.
Una vez buscada y encontrada la información básica referente a la secuencia del gen y la proteína que codifica, se procedió a buscar información ontológica (información sobre diferentes aspectos de la proteína, como su función molecular, los procesos en los que interviene en el organismo, o los tejidos en los que se expresa) acerca de la proteína. Para encontrar estos datos, fue de utilidad la base de datos UniProt.
Características de la proteína:
Esta es la estructura de la cadena beta de la hemoglobina humana, que aparece, en esta imagen obtenida por difracción de rayos X, con un grupo hemo unido (en la hemoglobina, cada una de las 4 subunidades de globina une un grupo hemo, cuyo átomo de hierro es capaz de unir un átomo de oxígeno).
Se trata de una proteína de la familia de las globinas, que cuenta con una estructura mayoritariamente en forma de hélice alfa, que tiene diferentes funciones moleculares, tales como la unión al grupo hemo y al hierro, y de unión y transporte de oxígeno.
Sus funciones principales en procesos biológicos son el transporte de sustancias gaseosas como el oxígeno (función principal de todas las subunidades de la hemoglobina) o el dióxido de carbono a través de la sangre en el interior del eritrocito, tiene capacidad de intervenir en procesos de oxidación-reducción, capacidad de oligomerización con otras proteínas, y además, cuenta con otra serie de funciones.
Según el fichero de la proteína en Uniprot, la posibilidad de escindir parte de su estructura para formar 2 compuestos diferentes, la LVV-hemorfina-7, y la espinorfina, le da otra serie de papeles en procesos biológicos. La liberación de hemorfina permite activar de mejor forma a la bradiquinina, que actúa en el aparato circulatorio y se encarga de disminuir la presión sanguínea. Por su parte, la espinorfina inhibe la degradación de un tipo de opioides endógenos conocidos como encefalinas, a la vez que actúa como antagonista de nociceptores, por lo que es un regulador de la actividad inflamatoria y de detección del dolor.
En cuanto a su localización celular y el tipo de célula en la que se expresa, cabe destacar que como parte de la hemoglobina, la subunidad de beta globina se sintetiza en células que darán lugar a eritrocitos maduros, que serán transportados a través de la sangre. Esta proteína heterooligomeriza con otras tres subunidades de globina, y se encuentra en el interior del eritrocito, es su citosol, donde se encarga del antes mencionado transporte de gases entre los pulmones y los tejidos periféricos.
Se ha demostrado (aunque no haya sido el caso de la secuencia estudiada en este contig), que variaciones en diferentes aminoácidos de la proteína (debidos a cualquier tipo de error durante la síntesis, o por errores en la secuencia de nucleótidos codificante) son causantes de cientos de casos catalogados y estudiados que se reparten por todo el mundo, de variaciones en la afinidad por los sustratos, ya sea aumentándola o disminuyéndola. También son bien conocidas muchas enfermedades de tipo hematológico, como las anemias o las talasemias, que pueden ser provocadas por errores en la síntesis de esta proteína, o por su síntesis en cantidad insuficiente. Se trata de enfermedades como la beta-talasemia, la anemia falciforme, o la anemia de cuerpos de Heinz, causada por la agregación de hemoglobina desnaturalizada.
En los archivos Contig2_OntologíaGEN y Contig2_OntologíaPROTEÍNA se recoge un resumen de las principales características ontológicas del gen y de la proteína en forma de tabla.
A modo de resumen y con el objetivo de integrar la información obtenida a partir del contig en la siguiente imagen se muestra un esquema a escala en el que se representa la localización del gen en el contig. Se amplia la secuencia del gen con sus exones, intrones y UTR, la secuencia de cDNA correspondiente mRNA del transcrito correspondiente y la secuencia de la proteína.








