Discusión Contig 1
Tras el ensamblaje de los distintos fragmentos se delimitaron cada uno de los contig.
El primero de ellos (Ver 1.Fichero_Contig) está formado por 16 fragmentos de una longitud de 400 pb, salvo el último de 211 pb, dando una longitud total de 4711 pb y se analiza a continuación.
Primeramente se describen una serie de características generales del contig con DNA stats que pueden ser de ayuda a la hora de determinar posibles genes, tales como:
-Contenido en GC: 49.12%, esta característica está relacionada con la temperatura de desnaturalización de la doble hebra, cuanto mayor sea este porcentaje, mayor será dicha temperatura porque este par se une por tres en lugar de dos puentes de hidrógeno; en este caso el porcentaje es muy próximo al esperado.
-Porcentaje de dinucleótidos: puede determinar la presencia de estructuras tales como islas CpG que a su vez son indicio de zonas del genoma ausentes de genes. Para este contig, tanto el porcentaje de cada una de las bases como de dinucleótidos no difiere significativamente de los esperados ni es determinante de la estructura antes mencionada u alguna otra (resultados no mostrados).
-Peso molecular: como se trata de una secuencia con bases enmascaradas con “N” el peso no es exacto sino que se presenta como un rango 1451378.27-1455178.87Da, en función de que bases concretas adopte.
La presencia de secuencias repetitivas y transposones puede interferir en la búsqueda de genes, por ello se deben detectar primeramente para enmascararlos y facilitar la búsqueda de genes. En este caso no fue necesario realizar este paso primero ya que el contig no era tan grande como para albergar demasiados genes. No obstante, este paso resulta relevante en tanto en cuanto los transposones además de interferir en herramientas de búsqueda de genes, como las empleadas, llegando a ser identificados como tales, como pueden moverse a lo largo del genoma, según donde se sitúen pueden ser inocuas o conllevar alteraciones en el gen o en su expresión. Para la búsqueda de transposones se recurre a giri Censor. Esta herramienta localiza 2 transposones:
Solo uno de ellos se encuentra dentro de los umbrales de tamaño, Score e identidad aplicados en el resto de contigs para la selección de transposones. Tanto el tamaño como el Score deben ser superiores a la media de todos los transposones encontrados, 226 pb y 1244, respectivamente. El valor de identidad se fijó como mínimo en 0,8.
Este transposón se encuentra, como se verá más adelante, fuera de la región génica luego no influirá de ninguna manera en la expresión del gen.
Otro de los elementos que pueden interferir en la búsqueda de genes y que se van a enmascarar son los microsatélites y secuencias repetitivas. Los resultados de la búsqueda son:
Como se observa ninguno de los microsatélites muestra repeticiones que difieran del porcentaje de dinucleótidos observado previamente, solo que hay tendencia a agrupación de bases iguales. Los resultados del enmascaramiento se observan en el 1.Fichero_ContigTransposonesRepetitvas. A ninguno de los microsatélites encontrados se le asigna función génica o relacionada con la regulación de su expresión, aun así hay algunos aspectos de interés. Primeramente respecto a su disposición y es que hay una región pobre en estas secuencias, con respecto al resto del contig. Esto se explica considerando que se trata de la región correspondiente al gen, ya que las regiones codificantes suelen ser pobres en estas secuencias, y que las pocas que hay son debidas al azar. Por otro lado, una de las secuencias repetidas es identificada también por el algoritmo de los Microsatellite Repeats Finder puede que porque se trate de una secuencia de repetición larga, de ahí que le detecte el primer algoritmo pero que como la unidad de repetición sea más simple “CT”, lo detecte también el segundo algoritmo. Es de destacar también que el transposón incluye 3 de los microsatélites encontrados, lo cual tiene sentido ya que no dejan de ser secuencias introducidas en algún momento de la evolución por plásmidos, luego también estar a su vez caracterizadas por la presencia de microsatélites.
Aunque como se ha visto la disposición de estas secuencias podria orientar sobre regiones del contig susceptibles de albergar un gen, se recurre a un procedimiento de predicción de genes ab initio con la herramienta ORFinder que muestra los siguientes resultados:
Para comprobar si los ORFs encontrados son o no genes se recurre a buscar genes homólogos presentes en las bases de datos. Con los resultados obtenidos con Translate de Expasy que muestra varias secuencias de proteínas, aquellos que superan el umbral de 40 aminoácidos, se someten a un Blast para detectar homología con otras secuencias presentes en la base de datos, y según eso identificarlas como gen o no.
En la mayoría de los casos o no encuentra secuencias similares o las que encuentra son demasiado reducidas y con baja homología como para concluir con cierta seguridad que se trate de un gen (resultados no mostrados); salvo para una secuencia de 528 aminoácidos que se encuentra en el segundo marco de lectura en dirección 5´-->3´
Esta secuencia presenta una puntuación de alineamiento alta, luego tiene un alto grado de homología y dado el gran número de secuencias encontradas se trata de una secuencia altamente conservada. Por esto se concluye, que se trate de un gen concretamente la GLICOSIL TRANSFERASA, según la base de datos del NCBI
Todos los posibles genes candidatos de esta proteína se encuentran en insectos, mosquitos en su mayoría, capaces de actuar como vectores transmisores de alguna enfermedad infecciosa como el dengue o la malaria; aunque el que presenta mayor identidad es Anopheles Gambiae, con el 98%, y con un valor de E 0, es decir, que la probabilidad de que esta identidad se deba al azar es nula. Estos parámetros en conjunto confieren gran fiabilidad a los resultados como se observa en el alineamiento proporcionado por Blast.
Para comprobarlo, se hace un Blast con el contig, el resultado es que lo identifica como el mRNA del gen AgaP_AGAP007028 de Anopheles gambiae con una identidad del 100%.
El siguiente paso es localizar la secuencia de este gen en el contig. Para ello se retoma la información que proporcionaba ORFinder y que coincidía con Translate Expasy segun el cual el gen se localiza en el segundo marco de lectura en dirección 5´-3´. Concretamente esta primera herramienta lo localiza de la base 1001 a la 2587 (Ver 1.Fichero_ContigGen).
Cabe destacar que si bien la secuencia completa del gen está localizada en el contig (Ver 1.Fichero_Gen) no se corresponde exactamente con la secuencia que identifica ORFinder. En la secuencia que marcada en 1.Fichero_ContigGen se incluye el primer exón entero y parte del intrón (como se explicará más adelante el gen está formado por dos exones y un intrón), mientras que en la de 1.Fichero_Gen, obtenida a partir de la localización de los elementos genéticos de las bases de datos en el contig, se identifican los dos exones y el intrón, íntegros todos. Esto se ha podido deber a que los algoritmos usados por esta herramienta localizan secuencias comprendidas entre una metionina, aminoácido para el que codifica el codón de inicio, y un codón Stop. No obstante, en este caso el codón Stop se corresponde con una secuencia no codificante, un intrón, que no esta en el mRNA porque ya se han eliminado los intrones, luego no tendrá este punto de corte y continuará traduciendo el segundo exón hasta que encuentre en este un codón Stop. Además este primer exón codifica para 507 aminoácidos, longitud suficiente constituir por sí solo una proteína.
Para la búsqueda de las secuencias del cDNA y proteína correspondiente a este gen se recurre a Ensembl, pero a diferencia de la que se ha usado para el resto de los contigs con genes humanos se usa la variante Metazoa, específica de insectos (Ver 1.Fichero_Ortólogos).
Siguiendo con esta base de datos se buscan los ortólogos. Para este contig los ortólogos no se toman en relación al resto, ya que las distancia filogenética entre Anopheles Gambiae y humano, del que provienen los 5 genes de los demás contigs, no es suficiente como para obtener resultados significativos de homología entre regiones conservadas. Es decir, el grado de homología entre Anopheles Gambiae y humanos es demasiado bajo como encontrar algún organismo que tenga similitud significativa entre ambos para este tipo de análisis.
De los 62 que presenta la base de datos se eligen para hacer un alineamiento de secuencias Aedes Aegypti y Culex quinquefaxciatus. Se eligen por tener un porcentaje de homología relativamente alto con el gen de la base de datos, como se mostrará más adelante.
Se buscan las secuencias en esta base de datos de cDNA y proteína correspondiente a este gen para los organismos seleccionados. Se alinean ambas secuencias para los tres organismos (Ver 1.Fichero_Ortólogos) por medio de ClustalW2. La homología entre los cDNA es alta, salvo la primera parte de la secuencia del contig que esta ausente en el homólogo de Aedes Aegypti. Al analizar las secuencias correspondientes de proteína se observa que la similitud también es alta luego muchos de los polimorfismos presentes se tratan de mutaciones silenciosas, y las que no lo son, en la mayoría de los casos, suponen la sustitución de un aminoácido por otro que presenta características muy similares. Con esto se puede concluir que se trata de una secuencia altamente conservada en la evolución.
Teniendo esto en cuenta se pretende comprobar si la secuencia que se encuentra en el contig presenta algún polimorfismo. Para ello se realizan alineamientos a nivel de cDNA y de proteína de la secuencia correspondiente al contig y la de las bases de datos (Ver 1.Fichero_SNP).
Si bien a nivel de cDNA está altamente conservada y por tanto no presenta ningún polimorfismo, presenta numerosos polimorfismos a nivel de proteína. Concretamente entre los 21 últimos aminoácidos del contig y los 32 últimos de la secuencia de la base de datos, es decir, la longitud de ambas secuencias es distinta, la de las bases de datos tiene 11 aminoácidos más que la correspondiente al contig. La primera hipótesis que se barajó fue que esta variación de longitud de la proteína se relaciona con la diferente longitud a nivel de la secuencia de DNA según la herramienta de búsqueda de genes usada. En el caso de que fuera por esto, la diferencia de aminoácidos entre ambas secuencias debería ser de 33 aminoácidos que es lo que corresponde al segundo exón, y no solo de 11 como es el caso. Luego esto implica que los polimorfismo a nivel de proteína se corresponden con el último tercio del segundo exón, con lo que esta hipótesis queda descartada. Se podría explicar considerando que esta última zona de 32 aminoácidos corresponde con la zona que Ensembl Metazoa identifica como “Alternating exons”, esto unido al hecho de que era una zona de muchos polimorfismo cuando se alineó con los ortólogos elegidos y que la mayoría de los aminoácidos que difieren, para este último alineamiento, no presentan características similares, puede ser que se trate de una zona de la proteína no esencial en la función, y que por tanto haya sufrido numerosas variaciones a lo largo de la evolución. Otra posibilidad es que se deba a modificaciones postraduccionales que implica la adición de un péptido señal, lo que explicaría la diferencia de longitud entre ambas secuencias.
Habiendo analizado el gen presente en el contig y la proteína correspondiente se procede a la anotación funcional de los mismos.
Características del gen:
Respecto al gen corresponde con el AGAP007028 de la base de datos Ensembl Metazoa del mosquito Anopheles Gambiae. Se localiza en el cromosoma 2L en el fragmento 26D:
Con una longitud de 1711 pares de bases esta formado por 2 exones y un intrón y carece de UTR. Como se ha podido ver en el análisis del contig codifica para una proteína, concretamente la glicosiltransferasa.
Características de la proteína:
A nivel de proteína presenta un único transcrito que codifica para una proteína de 539 aminoácidos con un peso molecular de 59.852 Da. En este caso además de la información que proporcionaba Ensembl Metazoa a nivel de proteína, se recurrió a UniProt, en cuyo registro se nombra como AGAP007028-PA. Si bien no se ha resuelto su estructura 3D por homología se conocen algunas características de su estructura secundaria. Según las cuales hay una región central que abarca casi la totalidad de la proteína, que se corresponde con un motivo de la superfamilia, seguido de una región con una hélice transmembrana hacia el final de la secuencia, todo ello flanqueado por dos regiones de baja complejidad en los extremos de la secuencia. Además contiene un lugar de escisión al comienzo de la secuencia. Esta proteína se encarga de la catálisis de la transferencia de grupos de azúcares de 6 carbonos desde un compuesto que actúa como donador a otro que actúa como aceptor.
A modo de resumen y con el objetivo de integrar la información obtenida a partir del contig en la siguiente imagen se muestra un esquema a escala en el que se representa la localización del gen, trasposón y secuencias repetitivas en el contig. Se amplia la secuencia del gen con sus exones e intrones, la secuencia de cDNA correspondiente mRNA del transcrito correspondiente y la secuencia de la proteína.










