Discusión Contig 3
El contig 3 es una secuencia de DNA de 15626 pb, uno de los 5 obtenidos tras el ensamblaje de 46 secuencias (45 de 500 pb y una de 250 pb) de menor tamaño mediante la herramienta bioinformática CAP3.
La secuencia del contig 3 es la más larga de los 5 fragmentos obtenidos por ensamblaje por un amplio margen, y ello implica que la probabilidad de encontrar más de un gen o diversos elementos genómicos aumenta con respecto a los demás (Ver 3. Fichero_Contig).
Para analizar algunas de las características del contig 3, se ha utilizado la herramienta bioinformática DNA Stats. El porcentaje en contenido de bases AT y CG tras realizar el análisis ha resultado en lo siguiente:
Contenido en bases GC: 43,01%
Contenido en bases AT: 56,99%
Se ha observado que la proporción en bases GC es menor que su contraparte. Esto implica no sólo menor estabilidad térmica de la cadena de nucleótidos sino que teóricamente existe una menor cantidad de regiones exónicas (Las cuales habitualmente presentan una proporción predominante de bases GC) con respecto a regiones que no se transcriben.
En relación a la característica física del peso molecular de la cadena nucleotídica, la herramienta DNA Molecular Weight proporcionó un peso de 4827993.18 Daltons.
Para observar si es cierta la hipótesis de que los exones no ocupan una amplia parte del contig (Debido a los datos en proporciones AT/GC), se podría proceder a la búsqueda de genes, pero no es recomendable debido a que, como se está tratando con una secuencia genómica desconocida, podría contener transposones.
Los transposones, unas secuencias genómicas que son capaces de moverse a lo largo del genoma y causar tanto efectos evolutivos (fusión de exones…), efectos dañinos (hemofilia…) o simplemente inocuidad debido a su silenciación, podrían estar insertados en regiones del genoma que pueden ser interpretadas como génicas por algoritmos de búsqueda de genes cuando en realidad no lo son. Por tanto es importante encontrar y enmascarar las secuencias que contienen transposones para evitar que interfieran en la posterior búsqueda de genes.
Tras introducir la secuencia del contig en la herramienta bioinformática giri Censor, la cual tiene la función de encontrar transposones y enmascarar la secuencia de acuerdo a las coincidencias, se obtuvo la siguiente tabla:
Se estableció un criterio de valor umbral de Score (Puntuación en una matriz en bases tras alineamiento de la secuencia contra la del transposón) y de longitud (Debido a que es fácil que coincidan erróneamente fragmentos cortos y proporcione falsos positivos). Este umbral se obtuvo realizando las medias de Score y longitud de todos los transposones encontrados en todos los contigs analizados.
El valor mínimo de tamaño para ser considerado transposón en este estudio resultó en 226 pares de bases, mientras que, comparando los valores de Score y la columna de similitud o identidad, se determinó un valor de similitud mínimo de 0,8 necesario para poder ser considerada la coincidencia.
Mediante un método de descarte, se seleccionaron, para el contig 3 un total de 10 transposones, los cuales aparecen en la siguiente tabla:
Para comenzar su análisis, se procedió a clasificar los transposones por tipo. Aunque no hay un consenso en cómo clasificar estas complejas secuencias, existen dos clasificaciones extendidas: Retrotransposon(LTR o no-LTR)-DNA Transposón, o Autónomo-No autónomo. En el caso de la división Retrotransposón-DNA Transposón, existen más características (Estructurales y funcionales) con las que se puede identificar al grupo, por tanto se ha utilizado esta clasificación para realizar la discusión de las secuencias seleccionadas.
Se obtuvieron, en cuanto a retrotransposones del tipo no-LTR (De secuencia relativamente corta) 1 retrotransposón de tipo LINE1 (L1) y 7 retrotransposones de la familia Alu (Más cortas que L1, del grupo SINE1). Se observa cómo incluso realizando una estricta selección, la proporción de L1 del total de no-LTR con respecto a Alu se conserva al igual que ocurre en el genoma, (1:7, un 14%), igual que la proporción en pares de bases de L1 sobre el total, que suele tratarse de un 12-17%.
Respecto a la conservación de las secuencia, Alu se conserva en gran parte y no pierde en casi ningún caso pares de bases al haber migrado al contig 3, mientras que los L1 tienen solamente un fragmento representado en la totalidad de la secuencia. Alu por general son inocuas en cuanto a patogenicidad, pero L1, incluso siendo un fragmento del retrotransposón original, puede causar patologías si se inserta en una región génica.
Por otro lado, considerando a los retrotransposones LTR o Long Tandem Repeat, se encontraron dos, uno genérico y otro perteneciente a la familia de endoretrovirus (ERV). No se ha encontrado información sobre el ERV MLT1C además de su secuencia, la cual indica que el LTR está fragmentado. El LTR THE 1, por otro lado, es una secuencia de 1580 pb (Bastante conservado en este contig) presente en organismos simiiformes que está asociado al linfoma de Hodgkin si se encuentra en un entorno génico, cosa que no ocurre en este caso.
Finalmente, fueron identificados un pequeño número de DNA transposones por el programa Censor, pero debido a los estrictos criterios de selección impuestos por el equipo, ninguno clasificó para ser considerado fiable.
Se realizó un enmascaramiento del contig (Ver 3. Fichero_ContigTransposonesyRepetitivas) con todos los transposones descritos, diferenciando específicamente el L1, con el principal objetivo de identificar posibles daños a las secuencias génicas si por una casualidad ocurría una coincidencia con un potencial gen.
Por otro lado, se procedió a buscar otro tipo de repeticiones (Microsatélite y tándem), mediante la herramienta Microsatellite Repeats Finder de BioPHP. El número mínimo de repeticiones consideradas para identificarlo como secuencia repetitiva se dejó intacto (3), debido de nuevo al alto número de bases que contiene la secuencia.
Llama la atención sobre todo una de las regiones de la secuencia, comprendida entre las bases 2159 y 3458. Aunque la lista de coincidencias es extremadamente larga, todas comparten en mayor o menor medida una uniformidad en el sentido de que cada pocas bases (50-100) aparece una repetición. En este caso, hay un fragmento de unas 1300 bases que además coincide con una posición en la que no se han encontrado transposones, en el que no hay ni siquiera secuencias microsatélite. Esto podría delatar la presencia de un gen conservado.
Por otra parte, se observa una desproporcionada cantidad de A y T con respecto a C y G. La desproporción es tal que incluso hay zonas en las que repeticiones de un gran número de timinas se dan 10 o 15 veces.
Esto refuerza la hipótesis planteada al comienzo de que las regiones con A y T están asociadas a regiones poco génicas, y sabiendo a su vez que un gran número de secuencias repetitivas en una zona delata la presencia de regiones de poca complejidad, se puede asegurar que la probabilidad de encontrar un gen en las últimas 3 kilobases de la secuencia es muy baja (Ver 3. Fichero_contigTransposonesyRepetitivas).
La secuencia resultante se utilizó, esta vez sí, para comenzar la búsqueda de genes.
Para poder encontrar marcos abiertos de lectura que delaten la presencia de posibles genes y llegar a un consenso, se utilizaron dos herramientas bioinformáticas en paralelo: Translate de ExPASy, y ORF Finder, perteneciente al NCBI.
Este doble uso permite, no solo tener un segundo resultado con el que confirmar las coincidencias mostradas por la primera de las herramientas, sino que aporta claridad a la clasificación y presentación de los ORFs encontrados. ORF Finder permite establecer una cantidad mínima de bases o aminoácidos a partir de los que considera a una secuencia como Open Reading Frame, y establece una clasificación por tamaño y marco de lectura de los resultados. Translate, por otro lado, muestra la secuencia de DNA directamente traducida y es más visual, es decir, permite observar resaltada directamente en cualquiera de los 6 marcos de lectura diferentes de la secuencia, el posible ORF.
Se comenzó utilizando ORF Finder con un criterio de número mínimo de bases de 60 aminoácidos o 180 pares de bases establecido por el programa, y ello proporcionó los siguientes resultados en los 6 marcos de lectura diferentes (5’ → 3’ Frame 1,2,3 y 3’ → 5’ Frame 1,2,3):
Debido a que se obtuvo una cantidad tan grande de posibles genes con un valor de nº de aminoácidos mayor que el umbral estándar del programa y que este contig era el mayor de todos por un amplio margen, se decidió seleccionar solo aquellos que poseían una cantidad superior a los 100 para quitar carga de trabajo al programa.
Al traducir la secuencia mediante Translate, la cual también marca en rojo los posibles ORF, destacan completamente las secuencias (Ver 3. Fichero_ORFs) que superan este último criterio establecido. Una de ellas es la perteneciente a la lectura +3 (Hebra 5’a 3’ lectura comenzando por el tercer nucleótido del codón).
Se realiza un alineamiento de secuencias utilizando la opción blastn (para nucleótidos) de la herramienta bioinformática BLAST (Basic Local Alignment Search Tool), con el objetivo de encontrar genes que poseen porcentajes de identidad muy altos y valores de E lo más bajos posibles.
Se introdujeron los ORF encontrados de mayor longitud que 300 pares de bases, y tras el proceso, se encontraron dos que superaban, de nuevo, el criterio establecido por el equipo. La secuencia de 1896 pares de bases de la lectura +3 de posibles ORFs coincidía en ambos tipos de análisis y con una identidad del 100% y con un valor de E de 0, con la secuencia del gen de la proteína 53 de la familia DEAD Box (DDX53).
En cuanto a las otras secuencias, solamente el fragmento de 573 pares de bases de la lectura +2 presentaba una coincidencia con una identidad y valores de E superiores al mínimo establecido. Se observó que la secuencia pertenecía al gen de la fosfatasa de especificidad dual 21 (DUSP21). Ambos genes pertenecían a Homo sapiens, por tanto se pudo identificar el organismo de procedencia gracias a los resultados arrojados.
Ninguna de las demás secuencias, incluso las de menor tamaño, proporcionó un resultado estadísticamente significativo como para poder ser considerada. Es por tanto que se determinó que el contig 3 contenía dos regiones génicas (Ver 3. Fichero_Gen) (Ver 3.fichero_ContigGen).
Se compararon, para realizar una confirmación, las posiciones de los genes en la secuencia con los transposones L1 para descartar que no había ningún tipo de posibilidad de patología, pero el resultado obtenido al realizar la comparación fue diferente al esperado.
Se observó que solo un transposón coincidía con parte de la secuencia de uno de los genes, y exactamente el único de los diez de un grupo conocido por causar patologías, entre otros efectos.
Inicialmente se planteó enmascarar la secuencia, pero un análisis en la propia base de datos de Ensembl reveló una región UTR 3’ muy extensa en la que sí que se contaba con la presencia íntegra del transposón.
Se realizó una búsqueda en la base de datos Ensembl que reveló que existe una amplia variedad de SNPs para los genes, y por tanto se alinearon las dos secuencias con BLAST (La del contig y el cDNA (Ver 3. Fichero_cDNA)) con dos propósitos: El primero fue encontrar polimorfismos y mutaciones entre los cuales se encuentran SNPs, y el segundo e igual de importante determinar si la secuencia del transposón L1 encontrada es de verdad esa secuencia o una mutación en el contig ha causado que fruto de la casualidad haya causado el ser identificado como tal. El resultado reveló que los exones del contig están libres de polimorfismos, es decir, coinciden con las canónicas. En DUSP21, las secuencias UTR también coinciden con las de las bases de datos, pero en DDX53, se observaron distintos polimorfismos (3. Fichero_SNPs) en su 3’UTR.
Las mutaciones en la secuencia causaron 4 SNP y una deleción (375 pb) de parte del UTR. Es por ello que la secuencia del cDNA tiene 3255pb en vez de 3629. Esa deleción corresponde originalmente a una duplicación parcial ( parcial debido a que en vez de ser una duplicación exacta contiene un tetranucléotido más (GATG)) del 3’UTR en el gen canónico. El transposón en sí no tiene ninguna mutación, por tanto la hipótesis más probable es que los datos estén actualizados y que el transposón haya causado un fenómeno evolutivo llamado fusión de genes, de tal manera que su inserción implicó el acercamiento de una parte de UTR que evolutivamente ha sido buena (Adaptación, mejora en la traducción…) y por ello se ha conservado a lo largo de los años. Por tanto el transposón sí sería transposón en un inicio pero ahora ocupa el lugar como parte del 3’UTR del gen DDX53.
En cuanto a alineamiento de secuencias protéicas, los polimorfismos se han observado en una region no exonica, y por tanto sabemos que no van a provocar cambios en la secuencia proteica, sin embargo las UTRs desempeñan papeles importantes en la regulacion, por lo que esos SNPs si que podrían provocar alteraciones en la regulacion de la expresión y tal vez relacionarse con alguna enfermedad.
Para observar posibles alteraciones en la regulación de la expresión de la proteína, se procedió a amplificar la región que contiene los SNPs. Para ello, se diseñaron primers con una Tm y longitud razonable utilizando la herramienta Primer3Plus. Realizando una valoración de los valores de y longitud, el mejor par de primers encontrado fue el siguiente:
Por otro lado, tras obtener la secuencia protéica (Ver 3. Fichero_proteína) por Translate, se procedió a la búsqueda de ortólogos en Ensembl. Los ortólogos con mayor porcentaje de identidad en cDNA pertenecen a la categoría de mamíferos, al igual que el Homo Sapiens. Aunque la lista de ortólogos encontrados para DDX53 es muy alta, se han seleccionado dos de las tres especies que cumplen con el criterio establecido por el equipo. Este criterio fue un consenso entre coincidencias en especies ortólogas entre los genes de cuatro de los contigs, debido a que uno de ellos no pertenecía a Homo Sapiens. Es decir, se observó qué especies eran ortólogas comunes en todos los genes y se seleccionaron dos de ellas. El alineamiento de ortólogos puede ser hallado en el siguiente fichero (Ver 3. Fichero_ortólogos)
En cuanto a DDX53, la conservación de secuencia con Bos taurus es muy alta sobre todo en la zona intermedia de la misma: Cuanto más se aleja la secuencia hacia los extremos se va perdiendo identidad. Esto hace que la identidad total entre secuencias sea de un 76%. La razón que que la zona intermedia esté más conservada sería más visible en cuanto a estructura, pero es posible que sea debido a que se trate de regiones puramente estructurales de la proteína, y que la evolución ha decidido que la estructura adoptada es la correcta para las funciones del polipéptido. El que difieran las regiones más extremas podría deberse a regiones con mayor interacción con el entorno al realizarse el plegamiento. Al tener que interaccionar con otras proteínas o moléculas que no son humanas, la secuencia debe cambiar para adaptarse a esas interacciones.
Con Vervet-AGM la identidad alcanza un 94%, dato que tiene como base que a diferencia de la vaca, el macaco verde africano tiene una similitud mucho mayor con el Homo sapiens. En cuanto al alineamiento de las secuencias protéicas la identidad desciende hasta un 90%, con una conservación casi íntegra de aminoácidos excepto en la última parte de la secuencia.
En el caso de DUSP21 la identidad con Vervet-AGM en ambos casos (proteína y DNA) aumenta con respecto a DDX53 (Un 91 y 95% respectivamente), lo cual arroja la idea que muchas de las proteínas en ambas especies están muy conservadas y que efectivamente ambos humano y macaco comparten un ancestro cercano común, no ha tenido el genoma mucho tiempo para divergir desde que ambas especies comenzaron a diferenciarse.
Finalmente, en el caso de la vaca, la identidad disminuye hasta un 63% en secuencia de proteína y un 71% en secuencia de DNA. Solamente se puede denominar como conservado a un cuarto de la secuencia en ambos casos, situado entre la mitad y el final de la misma. Llama la atención la cantidad de leucinas conservadas en esa región, lo cual puede sugerir que al tratarse de una zona bastante apolar resulte en una función estructural que se conserva. Las zonas no tan conservadas contienen un gran número de aspárticos (D), lo cual se puede interpretar, al igual que en DDX53, que efectivamente el medio con es que interacciona la fosfatasa de especificidad dual no es igual en humano y en vaca y que esas zonas expuestas son mucho más propensas a variar.
Características del gen
DDX53, también conocido como CAGE o CT26 es un gen de 3623 pares de bases que se encuentra en la cadena forward de la región 2 del brazo corto del cromosoma X de Homo sapiens (Específicamente Xp22.13, entre las bases 22,999,961 y 23,003,589). Contiene un solo exón y transcrito, y codifica para la proteína 53 de la caja DEAD. DEAD se refiere a una secuencia aminoacídica característica de esta familia de polipéptidos, la cual está compuesta de Asp-Glu-Ala-Asp (DEAD en código de una letra).
Mediante una consulta en Ensembl, se determinó y diferenció la secuencia exacta del gen (Ver 3. Fichero_Gen) y la de sus regiones 5’ y 3’ UTR.
DUSP21, por otra parte, también se encuentra en el brazo corto del cromosoma X de Homo sapiens (Xp11.4-Xp11.23), específicamente entre las bases 44,844,004-44,844,888, pero en este caso su localización es la región 1 banda 1, más cercana al centrómero, una zona con más condensación y menos genes que en regiones más alejadas. Tiene una longitud de 885 pb y está compuesto solamente de un exón y sus regiones UTR, según la fuente de Ensembl consultada. En cuanto a GenBank, la secuencia representada en el mapa génico sugiere una parte de un intrón hacia su extremo 3’. Se ha supuesto que el algoritmo utilizado para la búsqueda de intrones tiene establecidos unos criterios o patrones que le permiten identificar potenciales intrones, pero que en este caso la coincidencia es un falso positivo debido a que varias otras fuentes especifican que el gen está íntegramente compuesto por un solo exón (Ver 3. Fichero_Gen).
Características de la proteína
La proteína 53 de la caja DEAD es un polipéptido de 631 aa de la cual solo se conoce la estructura de su dominio de unión al ATP (204-430 aa). Su estructura por cristalografía de rayos X es la siguiente
Es un dominio que aparece en todas las proteínas integrantes de la familia de helicasas DEAD. Se trata de una hoja beta (En amarillo) rodeada o envuelta por diez hélices alfa (en rosa), específicamente con 5 a cada lado de la misma. El ATP al que se une el dominio también está representado en la imagen a modo de sticks and balls, denotando la posición que ocupa el ligando en la estructura tridimensional, una región con menor confluencia de hélices y mayor cantidad de estructura desordenada, lo cual confiere flexibilidad a la interacción.
La familia de helicasas DEAD utilizan este dominio de unión al ATP para hidrolizarlo, Esta liberación de energía de enlace causa un cambio estructural en las proteínas de esta familia que permiten llevar a cabo su actividad helicasa de ácidos nucléicos (Es decir, desenrollarlos). Como funciones adicionales, también están implicados en varios procesos del metabolismo de RNA, como su regulación.
Sus otros dominios incluyen el dominio de unión a RNA y el dominio KH, de los cuales no se conoce su estructura tridimensional.
Debido a su exclusiva interacción con ácidos nucléicos, la proteína 53 de la caja DEAD se encuentra localizada exclusivamente el núcleo.
En cuanto a la fosfatasa 21 de especificidad dual, se trata de un polipéptido de 190 aa de la que es conocida casi toda su estructura tridimensional teórica (22-181 aa), pues no existen experimentos cristalográficos o de RMN pero sí se ha puesto énfasis en utilizar diversos programas de modelización de proteínas. La más fiable descrita para Swiss-Model es la siguiente, con y sin centro activo visible:
La estructura en este caso incluye giros beta, los cuales se encuentran en la parte superior e inferior de la estructura (En las figuras), además de una región exclusivamente de hélices alfa (Parte superior) y otra región de hojas beta en la parte inferior.
Como se observa, la parte que contiene hojas beta contiene abundancia de estructura flexible y desordenada, y es precisamente aquí donde la proteína posee su actividad catalítica. La región de hélices alfa es la que más se conserva en cuanto a interpretación estructural de ortólogos, mientras que esta zona flexible es la más propensa a mutar de una especie a otra ya que va a ser la que va a interaccionar en mayor medida con el entorno.
En cuanto a regiones, solo se conoce una, por comparación con dominios de otras proteínas de la familia, la cual se trata de proteinas tirosina fosfatasa. Su función principal suele ser la de regular la modificación postraduccional de proteínas, removiendo fosfatos que han sido añadidos por la célula a residuos Tyr de proteínas sintetizadas. Esta familia de proteínas, al igual que la propia fosfatasa 21 de especificidad dual, actúa y se encuentra en núcleo, matriz mitocondrial, membrana interna mitocondrial y citoplasma, de forma que su rango de acción es muy extenso.
A modo de resumen y con el objetivo de integrar la información obtenida a partir del contig en la siguiente imagen se muestra un esquema a escala en el que se representa la localización de los dos genes en el contig y de los varios transposones encontrados. Se amplia la secuencia de los genes con sus exones y UTRs, la secuencia de cDNA correspondiente mRNA de los transcritos correspondientes y la secuencias de la proteínas.

















