top of page

Discusión Contig 4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

El Contig 4 tiene 5002pb y un peso molecular de 1544 KDa (1544849.77 Da) como resultado del ensamblaje de 15 fragmentos diferentes, de 420pb los 14 primeros y de 382pb el último, que se van solapando entre ellos permitiendo así conocer el orden en el que se disponen. (Ver fichero 4. Fichero_Contig)

 

Primeramente se trata de caracterizar la secuencia de este contig en busca de si hubiera alguna característica destacable. Encontramos que a diferencia de lo que se observa en otros contigs, en este caso la proporción de GC y AT es bastante equilibrada encontrando un 52,34% de contenido en GC y un 47,66% de contenido en AT. Estas proporciones no se desvían mucho de las esperadas.

 

 

Antes de realizar la búsqueda de genes en el contig tratamos de detectar la presenta de secuencias repetitivas y transposones para poder tener en cuenta que podrían interferir en la búsqueda de genes posterior. En el caso de éste contig y a pesar de que la herramienta Censor encuentra cuatro posibles transposones, al centrar la búsqueda en los transposones habituales en Homo sapiens (puesto que al realizar la búsqueda de genes posterior se encontró que el gen era de esta especie) el listado se reduce a cero. Por tanto, ajustándonos a los criterios de búsqueda establecidos por el grupo no se encuentran transposones en el contig 4. Tampoco encontramos secuencias repetitivas en tándem ni ninguna otra de las que buscan los algoritmos de Tandem Repeat Finder o RepeatMasker. Sin embargo al emplear la herramienta de Microsatellite Repeats Finder sí que da como resultado la presencia de quince microsatélites (algunos de ellos repetidos). Cabe destacar que dos de estas repeticiones encontradas como microsatélites son las secuencias TATAA que dada la posición en la que se encuentran, a pocos nucleótidos corriente arriba de la secuencia del gen, puede decirse que son las secuencias consenso TATAbox pertenecientes a la región promotora de la transcripción (Ver fichero 4. Fichero_ContigTrasposonesyrepetitivas)

 

Para realizar la búsqueda de genes se decide seguir la estrategia Ab initio para lo que se emplea la herramientra Translate de Expasy que traduce la secuencia y nos indica las posibles pautas de lectura abiertas (Ver fichero 4. Fichero_ORF). De entre éstas muchas se descartan por ser demasiado cortas, lo cual hace que sea poco probable que sean genes. Las posibles pautas de lectura abiertas que superan el criterio mínimo de tamaño establecido (40 aa) se contrastan frente a las proteínas de las bases de datos. De entre ellas descartamos que puedan ser proteínas reales algunas otras puesto que o bien no se encuentran proteínas similares en su secuencia o bien los resultados no son significativos. Algunas de las secuencias se alinean con varias proteínas diferentes, sin embargo ninguno de los alineamientos es estadísticamente significativo pues todos tienen un valor del parámetro E mucho mayor al umbral fijado por el grupo, E=0,005.

 

En la segunda pauta de lectura, la realizada en sentido 5’ a 3’ y comenzando a leer desde la segunda base, encontramos una posible pauta de lectura abierta que involucra a 361aa y con la que se dan alineamientos significativos con valores de E<0.005 e identidad>97% al hacer el BLAST.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Figura 1. Alineamiento del ORF con el gen que codifica para el receptor 146 acoplado a proteína G de Homo sapiens. Se observa que el alineamiento se da a partir del aminoácido 29 de la secuencia Query.

 

Lo más probable es que se trate de la proteína G acoplada al receptor 146 de Homo sapiens dado que es el resultado que mejor puntuación ha obtenido, además tiene un valor de E de 0, es decir, que la probabilidad de que la coincidencia se deba al azar es nula. Tienen una identidad del 99% y una cobertura del 92%, es decir, que el ORF que hemos encontrado dentro del contig se superpone al 92% con la secuencia de este gen y que el parecido entre ellas en ese tramo es del 99%. (Ver fichero 4. Fichero_ContigGen)

Más adelante al comparar la secuencia del ORF con la secuencia de la proteína codificada por el gen GPR146 recogida en Ensembl Genome Browser observaremos que la cobertura del 92% se debe a que, tal y como se observa ya tanto en la representación gráfica del alineamiento como en los detalles del propio alineamiento, los primeros (28) aminoácidos presentes en el ORF no aparecen en las proteínas codificadas por los genes de GPR146 de diferentes especies con los que se alinea.

 

Al observar estos resultados se plantea que, a pesar de que el ORF que encontramos codifica para 361aa la proteína pueda estar sufriendo una modificación postraduccional y que algún enzima pueda estar encargada de eliminar los primeros 28 aminoácidos de la misma. Del mismo modo a pesar de que translate haya traducido todo el ORF parte de este, podría ser una UTR o un intrón que a pesar de que se transcriben no llegan a traducirse a nivel de proteína.

 

Para verificar estas hipótesis se decide buscar el ORF a nivel de nucleótido en el contig y compararlo con el cDNA presente en la base de datos de Ensembl. Al acceder al registro del gen GPR146 de humanos encontramos que  hay seis transcritos diferentes para el mismo.

 

 

 

 

 

 

 

 

Dos de ellos son procesados pero no se han encontrado a nivel de proteína. De los cuatro restantes nos centramos en los únicos dos transcritos que tienen enlace a su CCDS. Que se tenga el CCDS de estos transcritos nos indica que son secuencias que han sido revisadas y curadas por  el personal del NCBI y colaboradores externos como universidades y otras entidades  que participan en el proyecto de “Consensus CDS”, asegurándonos la validez y calidad de esos datos.

 

Observamos que ambos transcritos dan lugar a la proteína de 333aa con la que hemos estado trabajando y que su CDS también es el mismo. La diferencia reside en que el transcrito GRP146-001 está compuesto por dos exones y un intrón mientras que el GPR146-201 tan solo contiene un exón. Cabe mencionar que el primero de los exones del transcrito GPR146-001 es todo una secuencia UTR, y que el segundo de los exones es igual para ambos transcritos. Es por eso que el CDS en ambos casos es el mismo.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A pesar de  ambos transcritos tengan el mismo cDNA que es lo que verdaderamente nos interesa de cara a comparar con nuestro contig tratamos de identificar cuál de ellos es el presente en el contig 4. En cualquiera de los dos casos encontramos una particularidad y es que, a pesar de que cabía esperar que en el contig se encontrara la secuencia de DNA del gen al completo, incluyendo UTRs e incluso el intrón si nos encontráramos en el caso del primer transcrito, esto no ocurre. La secuencia que encontramos en el contig se corresponde únicamente con el CDS del gen.

 

Una de las posibles hipótesis es que en algún momento a lo largo de la evolución hayan coincidido juntos en una misma célula la retrotranscriptasa inversa de un virus (por infección) y el mRNA maduro del gen GPR146 que podría haber convertido este mRNA en DNA (cDNA) y éste podría haber terminado integrándose en el genoma humano explicando así la ausencia de UTRs e intrones. 

 

Una vez que tenemos ya la secuencia del cDNA registrada en Ensembl con la herramienta ORF Finder del NCBI buscamos en el contig la secuencia nuceotídica correspondiente al ORF que habíamos encontrado a nivel de proteína y la alineamos con el cDNA del gen de Ensembl. La secuencia codificante del contig no coincide exactamente con el CDS del gen GPR146 (Ensembl), sino que tiene una serie de nucleótidos por delante que codificarían para esos mismos 28 aminoácidos que no se alinean a nivel de proteína.  Tras comprobar que a nivel de cDNA también se observa esta diferencia descartamos que la ausencia de esos aminoácidos se deba a una modificación postraduccional de la proteína. Esto nos lleva a pensar que a pesar de que tanto el algoritmo de Translate como el de ORF Finder toman el ATG en posición 3923-3925 como codón inicio se ha visto (y así se recoge en Ensembl) que el codón que realmente toma la RNA polimerasa como inicio es el situado en posición 4007-4009. Puede ser que el codón ATG anterior no sea leído debido a alguna modificación de tipo epigenético (metilaciones, grado de compactación de la cromatina…), distancia a la región promotora…

 

En vista a estos resultados se deciden tomar como secuencia de cDNA y secuencia de proteína codificada por el contig los fragmentos que sí se alinean con la información registrada en la bases de datos descartando ese primer codón de inicio señalado por ORF Finder y Translate y tomando las secuencias desde el segundo (Ver 4. Fichero_proteina) (Ver 4. Fichero_gen).

 

 

>cDNA señalado por ORF finder. Se indica en Naranja el cDNA que se alinea con el registro de GPR146 de Ensembl.

ATGAGCATGCTCCGCCATGTAGGCCCACATCTCGCGGCGAACCGACTCCCACCACAGAGTAAGATAGTGAGTATTCAGACCGGGATGTGGAGCTGCAGCTGGTTCAACGGCACAGGGCTGGTGGAGGAGCTGCCTGCCTGCCAGGACCTGCAGCTGGGGCTGTCACTGTTGTCGCTGCTGGGCCTGGTGGTGGGCGTGCCAGTGGGCCTGTGCTACAACGCCCTGCTGGTGCTGGCCAACCTACACAGCAAGGCCAGCATGACCATGCCGGACGTGTACTTTGTCAACATGGCAGTGGCAGGCCTGGTGCTCAGCGCCCTGGCCCCTGTGCACCTGCTCGGCCCCCCGAGCTCCCGGTGGGCGCTGTGGAGTGTGGGCGGCGAAGTCCACGTGGCACTGCAGATCCCCTTCAATGTTTCCTCACTGGTGGCCATGTACTCCACCGCCCTGCTGAGCCTCGACCACTACATCGAGCGTGCACTGCCGCGGACCTACATGGCCAGCGTGTACAACACGCGGCACGTGTGCGGCTTCGTGTGGGGTGGCGCGCTGCTGACCAGCTTCTCCTCGCTGCTCTTCTACATCTGCAGCCATGTGTCCAACCGCGCGCTAGAGTGCGCCAAGATGCAGAACGCAGAAGCTGCCGACGCCACGCTGGTGTTCATCGGCTACGTGGTGCCAGCACTGGCCACCCTCTACGCGCTGGTGCTACTCTCCCGCGTCCGCAGGGAGGACACGCCCCTGGACCGGGACACGGGCCGGCTGGAGCCCTCGGCACACAGGCTGCTGGTGGCCACCGTGTGCACGCAGTTTGGGCTCTGGACGCCACACTATCTGATCCTGCTCGGGCACACGGTCATCATCTCGCGAGGGAAGCCCGTGGACGCACACTACCTGGGGCTACTGCACTTTGTGAAGGATTTCTCCAAACTCCTGGCCTTCTCCAGCAGCTTTGTGACACCACTTCTCTACCGCTACATGAGCCAGAGCTTCCGCAGCAAGCTCCAACGGCTGATGAAAAAGCTGCCCTGCGGGGAGCGGCACTGCTCCCCGGACCACATGGGGGTGCAGCAGGTGCTGGCGTAG

 

>ORF señalado por Translate. Se indica en Naranja la secuencia proteica que se alinea con el registro del receptor 146 acoplado a proteína G de Ensembl.

MSMLRHVGPHLAANRLPPQSKIVSIQTGMWSCSWFNGTGLVEELPACQDLQLGLSLLSLLGLVVGVPVGLCYNALLVLANLHSKASMTMPDVYFVNMAVAGLVLSALAPVHLLGPPSSRWALWSVGGEVHVALQIPFNVSSLVAMYSTALLSLDHYIERALPRTYMASVYNTRHVCGFVWGGALLTSFSSLLFYICSHVSNRALECAKMQNAEAADATLVFIGYVVPALATLYALVLLSRVRREDTPLDRDTGRLEPSAHRLLVATVCTQFGLWTPHYLILLGHTVIISRGKPVDAHYLGLLHFVKDFSKLLAFSSSFVTPLLYRYMSQSFRSKLQRLMKKLPCGERHCSPDHMGVQQVLA

 

El siguiente paso a realizar se basa como muchos otros en realizar alineamientos. Ésta vez se pretenden alinear las secuencias de cDNA y proteína obtenidas del contig con las secuencias correspondientes a ese mismo gen en diferentes especies. Para ello se buscan ortólogos comunes entre los genes humanos encontrados en los diferentes contigs (se excluye el gen AGAP007028 encontrado en el contig 1 por ser de otra especie). Al hacer esta búsqueda encontramos especies evolutivamente cercanas al Homo sapiens como el chimpancé para las que sí encontramos ortólogos de los genes HBB, DDX53, DUSP21 y SRY y sin embargo no se encuentra el ortólogo del gen GRP146. A pesar de que podría darse el caso de que realmente no se encontrara este gen en chimpancé el hecho de que sean especies próximas y que además sí que estén conservados el resto de los genes nos lleva a pensar que podría ser que no se encuentre el gen porque la región que no esté bien secuenciada, podría haber resultado enmascarada en el proceso previo de búsqueda de secuencias repetitivas… A pesar de ello se encuentran varios organismos para los que se encuentran ortólogos de los cinco genes y se deciden comparar los ortólogos de Vervet-AGM (Chlorocebus sabaeus) por ser un primate como el humano y la vaca (Bos taurus) como organismo evolutivamente más alejado.

 

Se observa que tanto a nivel de cDNA como de proteína el gen GPR196 está muy conservado en ambas especies. Aún así se observa, como cabía esperar que hay un mayor grado de conservación en el caso del primate por ser evolutivamente más próximos. Además se conserva en su totalidad, no aparecen tramos menos conversados por lo que se deduce que toda a proteína al completo es imprescindible en estos organismos al menos. (Ver 4. Fichero_ortólogos).

 

A continuación se decide comparar las secuencias de cDNA y proteína de las bases de datos con las obtenidas del contig con el objetivo de encontrar polimorfismos si los hubiera. Nuevamente nos valemos de la herramienta ClustalW2 para realizar el alineamiento entre ambas secuencias encontrando varias variaciones. 

A nivel de cDNA estos son los SNPs encontrados:

 

GPR146-001

Gen_Contig

 

Posición 333 (GUG codificaría para una V 111- GUU también)

GTCCACGTGGCACTGCAGATCCCCTTCAATGTGTCCTCACTGGTGGCCATGTACTCCACC 360

GTCCACGTGGCACTGCAGATCCCCTTCAATGTTTCCTCACTGGTGGCCATGTACTCCACC 360

 

Posición 518 (ACC codificaría para una T 173- AAC codificaría para una N)

TCCTCGCTGCTCTTCTACATCTGCAGCCATGTGTCCACCCGCGCGCTAGAGTGCGCCAAG 540

TCCTCGCTGCTCTTCTACATCTGCAGCCATGTGTCCAACCGCGCGCTAGAGTGCGCCAAG 540

               

Posición 762 (CTG codifica una L 253- CTC sigue codificando una L)

ACGCAGTTTGGGCTCTGGACGCCACACTATCTGATCCTGCTGGGGCACACGGTCATCATC 780

ACGCAGTTTGGGCTCTGGACGCCACACTATCTGATCCTGCTCGGGCACACGGTCATCATC 780

 

Posición 899 (AAC codifica para una N 300- AGC codifica para una S)

TCCAAACTCCTGGCCTTCTCCAGCAGCTTTGTGACACCACTTCTCTACCGCTACATGAAC 900

TCCAAACTCCTGGCCTTCTCCAGCAGCTTTGTGACACCACTTCTCTACCGCTACATGAGC 900

 

Posición 911 (CCC codifica para una P 304- CCG codifica para una P)

Posición 954 (GAC codifica para una D 318- GAG codifica para una E)

CAGAGCTTCCCCAGCAAGCTCCAACGGCTGATGAAAAAGCTGCCCTGCGGGGACCGGCAC 960

CAGAGCTTCCGCAGCAAGCTCCAACGGCTGATGAAAAAGCTGCCCTGCGGGGAGCGGCAC 960

 

Encontramos dos tipos de SNPs, todos ellos implican la mutación de un nucleótido por otro, sin embargo algunas de estas mutaciones son silenciosas, es decir, dan lugar a un codón diferente pero que sigue codificando para el mismo aminoácido y otros sin embargo suponen un cambio de aminoácido. (Ver 4. Fichero_SNP)

 

En el caso de las mutaciones missense en las que varía el aminoácido vamos a observar el cambio también al realizar el alineamiento a nivel de proteína.

 

G_protein-coupled_receptor_146

Proteina_Contig                    

 

Posición 173 (Coincide con el SNP visto en posición 518)

VWGGALLTSFSSLLFYICSHVSTRALECAKMQNAEAADATLVFIGYVVPA 200

VWGGALLTSFSSLLFYICSHVSNRALECAKMQNAEAADATLVFIGYVVPA 200

 

Posición 300 (Coincide con el SNP visto en posición 899)

LILLGHTVIISRGKPVDAHYLGLLHFVKDFSKLLAFSSSFVTPLLYRYMN300               LILLGHTVIISRGKPVDAHYLGLLHFVKDFSKLLAFSSSFVTPLLYRYMS 300

 

Posiciones 304 (coincide con el SNP visto en posición 911)y 318 (coincide con el SNP visto en posición 954)

QSFPSKLQRLMKKLPCGDRHCSPDHMGVQQVLA 333

QSFRSKLQRLMKKLPCGERHCSPDHMGVQQVLA 333

 

Los SNPs encontrados son muy puntuales y bastante dispersos aunque cabe notar que tienden a acumularse en la segunda mitad de la proteína, dado que a pesar de que aparece una variación a nivel de nucleótidos en la primera parte de la secuencia, se trata de una mutación silenciosa. La secuencia es lo suficientemente corta como para que este resultado se deba a puro azar, sin embargo a falta de más secuencias con las que poder comparar parece que las primeras cuatro hélices son las mejor conservadas y en las que no se tolera ni una sola variación.

 

Podría ocurrir que una de estas mutaciones, como por ejemplo  la que afecta al nucleótido 518 y que provoca un cambio de T a N en posición 173 (podría haberse escogido cualquier otra) estuviera relacionada con una determinada enfermedad (A pesar de que en SwissVar no se encuentra ninguna enfermedad asociada a este gen que se conozca actualmente). Podríamos suponer que el SNP en esta posición tuviera dos alelos, el alelo C (codón ACC que codifica para T) y el alelo A (codón AAC que codifica para N). La posesión de uno de estos alelos podría aumentar el riesgo de padecer la enfermedad o frente al otro que podría ser un SNP de protección frente a la misma. En cualquiera de los casos resultaría interesante conocer cuál de los dos alelos posee el paciente de forma que pudiera recibir consejo médico y tratamiento (si fuera necesario) acorde a su condición. Con el objetivo de detectar este SNP se diseñan dos cebadores para PCR que flanquean esta posición y que permitirían amplificar la región para poder secuenciarla y así conocer cuál de los dos alelos está presente.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

El diseño de los cebadores se realiza con la herramienta de Primer3Plus que nos señala en azul y amarillo una de las posibles parejas de cebadores que podríamos utilizar. En este caso los cebadores señalados son los siguientes, y dada su longitud y composición en CG y AT la temperatura de hibridación de los mismos (y que deberemos predeterminar en el ciclo de la PCR) es de 60ºC.

Left primer: GAGCCTCGACCACTACATCG

Right primer: GTGGTGTCACAAAGCTGCTG

Tm: 60ºC

 

 

Ahora que hemos encontrado ya el gen presente en el contig y que conocemos la proteína codificada por éste vamos a proceder a la anotación funcional de los mismos buscando cual es la función del gen, que tipo de de proteína es la que codifica, en que familia proteica se engloba, cual es su localización celular y estructura…

 

Características del gen:

El gen GPR146, también conocido como PR8 consta de 14685 bases y se encuentra en la cadena forward de la subanda 3 de la banda 2 de la región 2 del brazo corto del cromosoma 7 de Homo sapiens (7p22.3: 1,044,576-1,059,261 pb). 

 

 

 

 

 

Como ya se menciona a lo largo de la discusión, en ensembl se recogen seis transcritos alternativos para este mismo gen, de entre los cuales se escoge trabajar con el transcrito GPR146-001 dado que se tiene la secuencia revisada (CCDS) del mismo y codifica para una proteína de 333aa que coincide con la longitud del receptor 146 acoplado a proteína G. Este transcrito tiene un total de 1969pb divididas en dos exones separados por un intrón. Sin embargo sólo uno de estos dos exones es codificante mientras que el otro lo compone en su totalidad una región UTR.

                    Exon 1(UTR)- 199pb

                    Intron 1- 2008 pb

                    Exon 2 (codificante e incluye UTR) - 1770pb

 

Características de la proteina:

La secuencia codificante contenida en este segundo exon da lugar al receptor 146 acoplado a proteína G de 36.580 Da. Como todas las proteínas receptoras acopladas a proteína G similares a la rodopsina se caracteriza por aparecer integrada en la membrana y tener siele hélices transmembrana. Sin embargo no se ha conseguido resolver su estructura de hecho si accedemos a la base de datos GPCRBD en la que se recogen todos los receptores acoplados a proteina G y buscamos el GPR146 no se encuentra la de humanos sino las de Rattus Norvegicus y Danio rerio donde sí se indican incluso los aminoácidos implicados en cada una de las hélices. Tiene actividad de transductor, es capaz de combinarse con una señal extracelular y transmitirla a través de la membrana activando la proteína G heterotrimérica acoplada al receptor que intercambiará GDP por GTP en la subunidad alfa.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

En Pubmed se encuentran artículos que incluyen el locus de GPR146 dentro de los loci relacionados con los niveles de lípidos (Yosten GL et al;. 2013) o que describen una posible interacción entre la proteína y el peptido C de la proinsulina (Vassilatis DK et al.; 2003). Encontramos además que el gen GPR146 contiene varias entradas en el catálogo de COSMIC por lo que diferentes mutaciones n este gen han sido estudiadas en relacion a doce tipos diferentes de cancer entre ellos el cancer de pulmon, de pecho de colon y de pancreas.

 

 

A modo de resumen y con el objetivo de integrar la información obtenida a partir del contig en la siguiente imagen se muestra un esquema a escala en el que se representa la localización del CDS del gen localizado en el contig. Se amplia la secuencia del gen, la secuencia de cDNA correspondiente mRNA del transcrito correspondiente y la secuencia de la proteína.

 

bottom of page