Discusión Contig 5

El Contig 5 es una secuencia de DNA formada por 8690 pb y un peso molecular de 2680 KDa (2680778,72 Da). Es resultado del ensamblaje de 35 fragmentos, 34 de los cuales son de 400pb y el último de 190pb que se solapan lo que nos permite conocer su orden. (Ver 5.Fichero_contig)
Lo primero que vamos a hacer es caracterizar la secuencia, observamos que su contenido en G+C es de un 39, 98 %, hecho que puede deberse a que un mayor contenido guanina y citosina es típico de las regiones exónicas y en nuestro contig no esperamos encontrar muchos genes.
Nuestro objetivo es encontrar los genes que esconde. Para ello la mejor opción es comenzar buscando las secuencias repetitivas y los transposones que que nos podrían enmascarar su búsqueda. Para detectar los posibles transposones utilizamos la herramienta Censor giri que nos ofrece los siguientes resultados:
De los cuales siguiendo los criterios establecidos por el grupo en relación al tamaño (mínimo 226 pb) y al valor de similtud (mínimo 0,8) nos quedamos con tres de ellos.
Se ha obtenido un retrotransposón LTR (466) perteneciente a la familia de retrovirus endógenos (ERV).Además encontramos dos retrotransposones del tipo no-LTR del grupo SINEs. SINE 1 (7SL) de los cuales el último además se encuentra en sentido contrario (en el contig está en la secuencia complementaria y reversa).
Para la búsqueda de secuencias repetitivas (DNA microsatélite, repeticiones en tándem). Utilizamos Microsatellite Repeats finder. En el primer caso obtenemos 43 secuencias repetitivas. (Ver 5.Fichero_Contig Transposones+Repetitivas)
Podemos ver que existen repeticiones de todo tipo, pero destacan las repeticiones de T y de A lo que coincide con nuestra hipótesis de que las regiones no codificantes tiene una mayor proporción de estos nucleótidos puesto que las secuencias microsatélites se encuentran en estas zonas.
Para comenzar a buscar los genes introdujimos el contig en BLAST con lo que vimos que presenta una homología del 100% con un clon BAC del cromosoma Y y que una parte de nuestra secuencia tiene una homología del 100% con el gen SRY de Humanos.
Esto ya nos indicaba la que lo más probable sería que uno de los genes encontrados fuese el SRY de humanos. Pero para asegurarnos y ver si contenía algún otro gen utilizamos la estrategia ab initio que nos permite realizar la herramienta translate que nos traduce nuestra secuencia a proteína y nos marca los posibles ORFs en los seis marcos de lectura. (Ver 5.Fichero_ORFS). Para ver cuáles podrían corresponder con secuencias génicas hicimos un Blast con los ORF que superaban el criterio establecido (más de 100 aa) para compararlos con las proteínas de las bases de datos consiguiendo resultados significativos con los dos más largos (marcados en azul). Encontramos que el primer ORF seleccionado (En la primera pauta de lectura, en sentido 5´→3´) como ya habíamos predicho presenta un 100% de homología con la proteína SRY (Sex-determining región Y protein) de Homo Sapiens. Lo curioso es que el segundo ORF seleccionado (En la primera pauta de lectura en sentido 3´→5´) presenta un 99% de identidad con la misma proteína.
Así en vistas a los resultados, nuestro contig contiene dos copias de un gen en distinta dirección de lectura que codifican para la proteína SRY puesto que es en la que hemos obtenido un mayor porcentaje de identidad y un valor de E muy bajo del orden de 1-150, lo que nos indica que hay una baja probabilidad de que esta coincidencia se deba al azar. Para poder distinguirlo el primer gen/proteína lo denominaremos SRY y el segundo SRY3´. Si analizamos los resultados del alineamiento que nos ofrece BLAST a nivel de proteína podemos ver que en el primer caso se obtiene una proteína idéntica a la de las bases de datos( 100% de identidad y 100% de cobertura), sin embargo, en el segundo caso (99% de identidad y 100% de cobertura) observamos dos cambios en los aminoácidos. (E→K y V→A) (Ver 5.Fichero_proteínas). En la siguiente imagen se muestra un esquema de la situación del gen y la proteína a la que da lugar.
El siguiente paso es encontrar los genes en nuestro contig, para ello utilizamos Ensembl en el que buscamos el gen SRY situado en la hebra reversa del cromosoma Y. Observamos que tiene un solo transcrito de 615 pb que codifica para una proteína de 204aa, datos que corresponden con nuestras proteínas.
Puesto que no contiene intrones ni UTR y el gen SRY (versión del gen en 5´-->3´) coincide al 100% con la secuencia de la base de datos el CDS corresponderá tanto al cDNA como al gen pudiendo de este modo identificarlo en el contig.
Encontrar la secuencia correspondiente a la otra copia del gen (SRY3´) en el contig lleva un poco más de trabajo puesto que debemos tener en cuenta que en nuestro contig tenemos la secuencia inversa y complementaria a la del gen y con algunas variaciones puesto que a nivel de proteína sabemos que varía en dos aminoácidos. Lo primero que debemos hacer es ver cuales son los codones correspondientes a esos dos aminoácidos.
Como sabemos cual es el resultado final a nivel de proteína sabemos que el codón GAG (que codifica para E) tendrá que mutarse a alguno de los codones que codifican para K y en el caso de GTG, lo mismo pero para A:
De este modo, para averiguar cual es la secuencia real en nuestro contig que contendrá alguno de los codones mencionados seguimos los siguientes pasos:
1.Como hemos comentado, en el contig, la secuencia correspondiente a la copia del gen estará en forma complementaria y reversa(azul claro):
2.En el caso de que no hubiera ninguna mutación y tuviéramos una copia exacta del gen en la otra dirección de lectura encontraríamos la secuencia complementaria y reversa en la última parte de nuestro contig. Pero sabemos que como mínimo encontraremos dos variaciones que hemos visto a nivel de proteína pudiendo encontrar también alguna mutación silenciosa.
Por ello hemos optado por no buscar toda la secuencia en el contig, sino el comienzo y el final (sombreados en gris) .
CTACAGCTTTGTCCAGTGGCTGTAGCGGTCCCGTTGCTGCGGTGAGCTGGCTGCGTTGATGGGCGGTAAGTGGCCTAGCTGGTGCTCCATTCTTGAGTGTGTGGCTTTCGTACAGTCATCCCTGTACAACCTGTTGTCCAGTTGCACTTCGCTGCAGAGTACCGAAGCGGGATCTGCGGGAAGCAAACTGCAATTCTTCGGCAGCATCTTCGCCTTCCGACGAGGTCGATACTTATAATTCGGGTATTTCTCTCTGTGCATGGCCTGTAATTTCTGTGCCTCCTGGAAGAATGGCCATTTTTCGGCTTCAGTAAGCATTTTCCACTGGTATCCCAGCTGCTTGCTGATCTCTGAGTTTCGCATTCTGGGATTCTCTAGAGCCATCTTGCGCCTCTGATCGCGAGACCACACGATGAATGCGTTCATGGGTCGCTTCACTCTATCCTGGACGTTGCCTTTACTGTTTTCTCCCGTTTCACACTGATACTTAGAGTTACAGCTTTCAGTGCAAAGGAAGGAAGAGCTTCTCCGGAGAGCGGGAATATTCTCTTGCACAGCTGGACTGTAATCATCGCTGTTGAATACGCTTAACATAGCAGAAGCATATGATTGCAT
3.Así detectamos en el contig esta secuencia que como vemos varía en los codones correspondientes a los aminoácidos que cambian: (Ver 5.Fichero_ contigGen)
CTACAGCTTTGTCCAGTGGCTGTAGCGGTCCCGTTGCTGCGGTGAGCTGGCTGCATTGATGGGCGGTAAGTGGCCTAGCTGGTGCTCCATTCTTGAGTGTGTGGCTTTCGTACAGTCATCCCTGTACAACCTGTTGTCCAGTTGCGCTTCGCTGCAGAGTACCGAAGCGGGATCTGCGGGAAGCAAACTGCAATTCTTCGGCAGCATCTTCGCCTTCCGACGAGGTCGATACTTATAATTCGGGTATTTCTCTCTGTGCATGGCCTGTAATTTCTGTGCCTCCTGGAAGAATGGCCATTTTTCGGCTTCAGTAAGCATTTTCCACTGGTATCCCAGCTGCTTGCTGATCTTTGAGTTTCGCATTCTGGGATTCTCTAGAGCCATCTTGCGCCTCTGATCGCGAGACCACACGATGAATGCGTTCATGGGTCGCTTCACTCTATCCTGGACGTTGCCTTTACTGTTTTCTCCCGTTTCACACTGATACTTAGAGTTACAGCTTTCAGTGCAAAGGAAGGAAGAGCTTCTTCGGAGAGCGGGAATATTCTCTTGCACAGCTGGACTGTAATCATCGCTGTTGAATACGCTTAACATAGCAGAAGCATATGATTGCAT
En el siguiente esquema se amplia con la información obtenida, se muestran los codones que han variado en el DNA y que afectan a nivel de proteína:
Una forma más sencilla de realizar este proceso de búsqueda de la secuencia del gen en el contig se basa en utilizar ORF finder que nos muestra la zona en la que se sitúan los marcos de lectura con la localización en pares de bases:
Puesto como hemos comentado no tiene intrones, las secuencias de nuestros genes (Ver 5.Fichero_Gen) identificadas en el contig a los que hemos denominado SRY (Idéntico al de las bases de datos) y SRY3´ (El que presenta polimorfismos) serán las mismas que para el cDNA. (Ver 5.Fichero_cDNA)
Una vez que sabemos cuál es la secuencia de nuestros genes y de nuestras proteínas para saber cuánto se conservan ambos en otras especies realizamos un alineamiento con las secuencias correspondientes al gen y proteína de las bases de datos de esas especies. Lo primero que debemos hacer es una búsqueda de ortólogos que sean comunes entre los genes encontrados en los contigs pertenecientes a humanos. Entre ellos se eligió realizar la comparación con Bos Tarus (Cow) y Chlorocebus sabadeus (Vervet AGM) para lo que debemos localizar en las bases de datos el cDNA y la proteína correspondientes y realizar un alineamiento de secuencias. Se realiza el alineamiento con ambas versiones del gen y de la proteína. (Ver 5.Fichero_Ortólogos).
Tras ello analizamos estos alineamientos con ayuda de la tabla obtenida en Esembl para el gen y la proteína SRY registrada en las bases de datos, que nos puede servir como referencia puesto que la diferencia es mínima entre las dos versiones. En el caso de la comparación con Vervet-AGM vemos que con un 100% de cobertura y un 89% de identidad a nivel de proteína se trata de una secuencia bastante conservada (probablemente por su función) ya que se trata de un primate al igual que el ser humano aunque sí podemos ver que se localiza en el cromosoma X no en el Y como en humano.
Si observamos el alineamiento con la secuencia de Bos Taurus, apreciamos que la cobertura es menor, esto se debe a que en el caso de la vaca la longitud de la proteína es mayor, encontrando además una menor identidad a nivel de proteína (53%). Cabe destacar que también se localiza en otro cromosoma, siendo en este caso el cromosoma 13. Si nos fijamos la zona más conservada a nivel de proteína corresponde con el dominio de unión al DNA (56-131 aa) lo que nos indica la importancia de este dominio.
Hemos visto que en el caso del gen SRY no había ninguna variación respecto a las bases de datos, sin embargo, la copia, el gen SRY3´ sí que presenta variaciones. Para ver si existe alguna mutación silenciosa y comprobar lo ya obtenido a partir del alineamiento de BLAST realizamos la búsqueda de SNPs. Para ello alineamos el cDNA del gen con la secuencia del gen del contig, en el que encontramos dos variaciones más de las esperadas:
A nivel de cDNA estos son los SNPs encontrados:
Gen SRY 3´
Proteina_Contig
Posición 87 ( codificaría para una R 29- también codifica para R)
GTGCAAGAGAATATTCCCGCTCTCCGGAGAAGCTCTTCCTTCCTTTGCACTGAAAGCTGT 120
GTGCAAGAGAATATTCCCGCTCTCCGAAGAAGCTCTTCCTTCCTTTGCACTGAAAGCTGT 120
Posición 265 (GAG codifica una E 89- AAG codificaria para una K)
GAGAATCCCAGAATGCGAAACTCAGAGATCAGCAAGCAGCTGGGATACCAGTGGAAAATG 300
GAGAATCCCAGAATGCGAAACTCAAAGATCAGCAAGCAGCTGGGATACCAGTGGAAAATG 300
Posición 470 (GTG codifica una V 157 - GCG codificaría para una A)
AATTGCAGTTTGCTTCCCGCAGATCCCGCTTCGGTACTCTGCAGCGAAGTGCAACTGGAC 480
AATTGCAGTTTGCTTCCCGCAGATCCCGCTTCGGTACTCTGCAGCGAAGCGCAACTGGAC 480
Posición 561 ( codifica para una N 187- codifica también para una N)
GGCCACTTACCGCCCATCAACGCAGCCAGCTCACCGCAGCAACGGGACCGCTACAGCCAC 600
GGCCACTTACCGCCCATCAATGCAGCCAGCTCACCGCAGCAACGGGACCGCTACAGCCAC 600
Todos los SNP vistos a nivel de DNA que dan lugar a un codón que codifica para otro aminoácido se observan también a la hora de hacer el alineamiento de las secuencias proteicas (Ver 5.Fichero_SNP)
SRY protein 3´
Proteina_Contig
Posición 89 (Coincide con el SNP visto en posición 265)
KRPMNAFIVWSRDQRRKMALENPRMRNSEISKQLGYQWKMLTEAEKWPFFQEAQKLQAMH 120
KRPMNAFIVWSRDQRRKMALENPRMRNSKISKQLGYQWKMLTEAEKWPFFQEAQKLQAMH 120
Posición 157 (Coincide con el SNP visto en posición 470)
REKYPNYKYRPRRKAKMLPKNCSLLPADPASVLCSEVQLDNRLYRDDCTKATHSRMEHQL 180
REKYPNYKYRPRRKAKMLPKNCSLLPADPASVLCSEAQLDNRLYRDDCTKATHSRMEHQL 180
Para ver si el gen SRY3´corresponde alguna de los SNPs que están registrados buscamos las variantes missense recogidas en Ensembl pero observamos que no corresponde con ninguna. Esto se puede deber a que este cambio de aminoácidos no afecte a la función de la proteína. El resultado no nos sorprende pues no sería lógico contener una copia del gen y que esta estuviera “defectuosa”, contuviera mutaciones asociadas a enfermedades.
En el caso de querer detectar si disponemos en nuestro genoma de dos copias del gen idénticas o con algún polimorfismo como en el caso de nuestro contig, podemos diseñar unos primers que nos amplifiquen algunos de los codones que varían. Vemos un ejemplo para el caso de GAG/AAG:
Left primer: CGGAGAAGCTCTTCCTTCCT
Right primer: GCCATTTTTCGGCTTCAGTA
Tm: 60,05 ºC
En la PCR se amplificará tanto la secuencia del gen situada en 5´-->3´ como la que se encuentra en 3´-->5´, hecho que tendremos que tener en cuenta a la hora de interpretar los resultados. Así, al analizar las secuencias obtenidas tras la secuenciación de los amplificados, en el caso de que todas pertenezcan a la secuencia registrada en la base de datos nuestro gen será igual en ambos casos, en el caso de encontrar además secuencias con el otro codón podremos decir que tenemos dos copias distintas.
Lo realmente interesante sería saber cual de las dos copias del gen se está expresando. Para ello deberíamos hacer un análisis de expresión del gen a nivel de proteína de un individuo con un fenotipo normal y ver cual de las dos variantes se transcribe. En el caso de que sea la segunda copia la que se ha transcrito y por tanto se este expresando, se podria validar la hipótesis de que los SNPs presentes no afectan a la función de la proteína y descartar que aporte alguna característica particular.
Ahora que sabemos qué genes se encuentran en nuestro contig y cual es la proteína que codifican vamos a proceder a la anotación funcional, cual es la función del gen, que tipo de proteína codifica, donde se localiza en la célula, la estructura 3D de la proteína, cuando, donde se expresa...
Características del gen
El gen SRY, también denominado TDF costa de 615 pb y se sitúa en la cadena reverse de la subanda 3 de la banda 1 de la región 1 del brazo corto del cromosoma Y de Homo sapiens (Yp11.3: 2,786,989-2,787,603 pb)
Como se ha comentado, se trata de un gen con un solo transcrito de 615 pbs que codifica para una proteína de 204aa.
Mutaciones en este gen llevan a mujeres XY con disgenesia gonadal (Sindrome de Swyer) y translocaciones de parte del cromosoma Y que contiene este gen al cromosoma X causa el síndrome XX.
Características de la proteína
La proteína de la determinación del sexo es una proteína de 204 aa de la cual conocemos solo una parte de su estructura correspondiente a la zona de unión al DNA (56-131aa) obtenida por RMN. (En morado el DNA en blanco y rosa la estructura terciaria de parte de nuestra proteína)
Este dominio es característico de las proteínas de la familia de las HMG-box, caracterizadas por la estructura (secundaria y terciaria) que vemos en las imagenenes, tres alfa hélices separadas por loops. Estos dominios los encontramos en grupos de proteínas de alta movilidad que están implicados en la regulación de los procesos dependientes de DNA como la transcripción, replicación, reparación del DNA… requiriendo todos ellos cambios conformacionales de la cromatina. En el caso de SRY HMG box reconoce el DNA por intercalación parcial en el surco menor. Se une a la secuencia de DNA consenso: 5'-[AT]AACAA[AT]-3'
Entre sus funciones principales está funcionar como regulador de de la transcripción controlando el cambio genético en el desarrollo masculino. Es necesario y suficiente para que se inicie la determinación del sexo masculino dirigiendo el desarrollo de los precursores celulares (células pre-Sertoli) a células de Sertoli en vez de a células de la granulosa.
En los cerebros masculinos adultos está implicado en el mantenimiento de las funciones de las neuronas dopaminérgicas. Está implicado también en distintos aspectos de la regulación
A modo de resumen y con el objetivo de integrar la información obtenida a partir del contig en la siguiente imagen se muestra un esquema a escala en el que se representa la localización de las dos copias del gen encontradas en el contig junto con los transposones. En ambos casos, se amplia la secuencia del gen, la secuencia de cDNA correspondiente mRNA del transcrito correspondiente y la secuencia de la proteína.
















