Analyse ADNg eucaryote

TD 9 : CARTOGRAPHIE D'UN GENE HUMAIN

L’identification et la prédiction des gènes constituent un objectif majeur pour la bioinformatique en particulier depuis le développement du séquençage massif des génomes.
Le repérage des gènes dans les séquences nucléotidiques brutes fait appel à plusieurs méthodes :

la recherche des signaux et des séquences consensus (promoteurs, site de fixation du ribosome…) ;
la détection des cadres ouverts de lecture ;
la comparaison des séquences protéiques obtenues avec des séquences connues ;
l’analyse par des logiciels dédiés à la reconnaissance des gènes par des méthodes statistiques (Exemple : GenMark).

On se propose ici de construire la carte génomique d'un gène susceptible d’être présent dans un fragment d’ADN obtenu lors du séquençage du génome humain. On dispose pour cela de deux séquences présentant une forte homologie : l'une issue du séquençage du génome humain, l'autre provenant d'une banque d'ADNc, obtenue à partir des ARN polyA+ humain.

Ces deux séquences sont données ci-dessous :

>Sequence ADNg XP4532 Homo sapiens

CATGGGGCAAATCTCACTTTCGCTCCAGTTCCTGGGGCTCAGAGTCCCTGGCCCAGATGCCTCTTGCCATCTCATCTTCACCCTGCCTGGCTTCCCTTGCTTGTTCCAGGATTGTTTCATAAAGAGGGATGTGGTTGGTCTTTAACCCTATGAATGCTGGCTGAGGATGCCTGCGGAACCTGTAGTGAAGCTTTCAGGGGCTGCTCGGGTTCTGGCTGGTAGGTGAACACTGTCCATCTTGCCGGCTGGGACACAGTGACTCTGGGTAGTTGTGTAAGAGAGGGGCCCTTGGCAGACAAACAGGTTCTTCTCTGTTGGTGGGCCAGCCAGCAGGTCAGTGGGAAGGTTAAAGGTCATGGGGTTTGGGAGAAACTGGGTGAGGAGTTCAGCCCCATCCCCCGTAAAGCTCCTGGGAAGCACTTCTCTAGGCAGCCCCTGATACCAGGGCACTGCCAATCTAACCCTCTGGGTGCCAGGGAAAGGGCAGGAGGTAGTGCTGGGAGGTATAATGAGGTCAACTTCTTTTGAACTTCCACGTGGTATTTACTCAGAGCAATTGGTGCCAGAGGCTCAGGGCCCTGGAGTATAAAGCAGAATGTCTGCTCTCTGTGCCCAGACGTGAGCAGGTGAGCAGCTGGGGCAGAGGGATGGGGGTCACAGTCCTAAGGGAGGGCATTGCAGGTGGCCTCAGGGGAGAGCCTGGGGTGGCCCCTAAGACGTCCTCTTGGAACATTTTGGCAGAGTTGCCTCTTCGCCCTCATTATGGCTCAGTTTTTCCACCATGAAATGGGAGGGAGGGAGACAGGTGGGCAGGGGAGAGGTGGTAGAAGTGGCCTAGAGAACTGTTCCTGGGGTCTGGGACCTTTGCGAAGGGGTTAGAGCACCACGCTCCCTGCTATGTGACTGAGGTAGCAAGAGCACGCCCTCTTCCCATGTCTGAGGAAGACACCCTAGCCTCCTTGACTCACCTAGGTCAGTCCTCTTGAGCCCCAACAGCTCTGTGCTCCCCAGCCCAAGGAAGGGGTAACAGGATTTCGGGCAGTTGCCCCTGCAGAGGCCCCCTGGGCAAGTCCCCTGCGCCATGTCCCTTCGTCTCCTTCTTCCCCTAACCAGGCCTCCCTCCACCTGTCTTCTCAGAGCAGGTAATGGCAAGCATGGCTGCCGTGCTCACCTGGGCTCTGGCTCTTCTTTCAGGTGGGTCTCCGACCCTGACTTCAACGTGGGGGTGTGGGTGGAGGCTGGCCAGAGGGCCCTGTCCACCCTGGGGGAGGAGAGCCCAGGCCCTGATTACCTAGTCCCTCTCCACAGCGTTTTCGGCCACCCAGGCACGGAAAGGCTTCTGGGACTACTTCAGCCAGACCAGCGGGGACAAAGGCAGGGTGGAGCAGATCCATCAGCAGAAGATGGCTCGCGAGCCCGCGTGAGTGCCCAGGGGAAGGGGTGTAGGCGAAGGGAGGAGACAGCTGGGCCATGCCATGATGACCTGCCTCTGCTGCCTCAACCTCTGTGGCCGCTGCTGGGACAGAGGAAAGGAGCGGTGCTAGCTCTGTCTGCAGATCCCGGCCATCCTGGGCTCTTTAGCGCCCTCTGCCTGCAGCCCCCGCCTTGACAACTCCGTAGCTGTTGCCCCCTTGCTCACTGAGGCGCGGGACCTGGGATCAATCGGGAGGACGCCCGCTGCAGTCCCCAGAATCAAAGGATGATGTGGCGCATCTATGTTTCTTTGGAGAGTGTTGTAGGTCTGGATTTGTATGGGCAATGTGTTTGTGCTTCGTGCGTGAGTTGTTACTGGCCAGGGCTAGGACAAGAGCCCTCGACCCTGGGGCCAACGCCCTGCGTCCTTGGTTCCCCCAGAGGATCAGTGCGCGATGACTTGGGGACAAAGGAGATGATGGAGGCTAGCAGTCTGACGGCCTGGATATCTGTCCCCTTCTCCAGGACCCTGAAAGACAGCCTTGAGCAAGACCTCAACAATATGAACAAGTTCCTGGAAAAGCTGAGGCCTCTGAGTGGGAGCGAGGCTCCTCGGCTCCCACAGGACCCGGTGGGCATGCGGCGGCAGCTGCAGGAGGAGTTGGAGGAGGTGAAGGCTCGCCTCCAGCCCTACATGGCAGAGGCGCACGAGCTGGTGGGCTGGAATTTGGAGGGCTTGCGGCAGCAACTGAAGCCCTACACGATGGATCTGATGGAGCAGGTGGCCCTGCGCGTGCAGGAGCTGCAGGAGCAGTTGCGCGTGGTGGGGGAAGACACCAAGGCCCAGTTGCTGGGGGGCGTGGACGAGGCTTGGGCTTTGCTGCAGGGACTGCAGAGCCGCGTGGTGCACCACACCGGCCGCTTCAAAGAGCTCTTCCACCCATACGCCGAGAGCCTGGTGAGCGGCATCGGGCGCCACGTGCAGGAGCTGCACCGCAGTGTGGCTCCGCACGCCCCCGCCAGCCCCGCGCGCCTCAGTCGCTGCGTGCAGGTGCTCTCCCGGAAGCTCACGCTCAAGGCCAAGGCCCTGCACGCACGCATCCAGCAGAACCTGGACCAGCTGCGCGAAGAGCTCAGCAGAGCCTTTGCAGGCACTGGGACTGAGGAAGGGGCCGGCCCGGACCCCCAGATGCTCTCCGAGGAGGTGCGCCAGCGACTTCAGGCTTTCCGCCAGGACACCTACCTGCAGATAGCTGCCTTCACTCGCGCCATCGACCAGGAGACTGAGGAGGTCCAGCAGCAGCTGGCGCCACCTCCACCAGGCCACAGTGCCTTCGCCCCAGAGTTTCAACAAACAGACAGTGGCAAGGTTCTGAGCAAGCTGCAGGCCCGTCTGGATGACCTGTGGGAAGACATCACTCACAGCCTTCATGACCAGGGCCACAGCCATCTGGGGGACCCCTGAGGATCTACCTGCCCAGGCCCAATCCCAGCTCCTTGTCTGGGGAGCCTTGGCTCTGAGCCTCTAGCATGGTTCAGTCCTTGAAAGTGGCCTGTTGGGTGGAGGGTGGAAGGTCCTGTGCAGGACAGGGAGGCCACCAAAGGGGCTGCTGTCTCCTGCACATCCAGCCTCCTGCGACTCCCCAATCTGGATGCATTACATTCACCAGGCTTTGCAAACCCAGCCTCCCAGTGCTCATTTGGGAATGCTCATGAGTTACTCCATTCAAGGGTGAGGGAGTAGGGAGGGAGAGGCACCATGCATGTGGGTGATTATCTGCAAGCCTGTTTGCCGTGATGCTGGAAGCCTGTGCCACTACATCCTGGAGTTTGGCTCTAGTCACTTCTGGCTGCCTGGTGGCCACTGCTACAGCTGGTCCACAGAGAGGAGCACTTGTCTCCCCAGGGCTGCCATGGCAGCTATCAGGGGAATAGAAGGGAGAAAGAGAATATCATGGGGAGAACATGTGATGGTGTGTGAATATCCCTGCTGGCTCTGATGCTGGTGGGTACGAAAGGTGTGGGCTGTGATAGGAGAGGGCAGAGCCCATGTTTCCTGACATAGCTCTACACCTAAATAAGGGACTGAACCCTCCCAACTGTGGGAGCTCCTTAAACCCTCTGGGGAGCATACTGTGTGCTCTCCCCATCTCCAGCCCCTCCCTCTGGGTTCCCAAGTTGAAGCCTAGACTTCTGGCTCAAATGAAATAGATGTTTATGATAGAAGTTTGCCTGGCGTGACTCTCATTTGGACCATGTCTGAAAGCAGTGGCCTCACCACTATCCCCAAAGCACACCCATCACCCACTCCATTCCCTTGCTGCTCTTTC

>Sequence ADNc XP4532 Homo sapiens

CGTGGTATTTACTCAGAGCAATTGGTGCCAGAGGCTCAGGGCCCTGGAGTATAAAGCAGAATGTCTGCTCTCTGTGCCCAGACGTGAGCAGGCCTCCCTCCACCTGTCTTCTCAGAGCAGGTAATGGCAAGCATGGCTGCCGTGCTCACCTGGGCTCTGGCTCTTCTTTCAGCGTTTTCGGCCACCCAGGCACGGAAAGGCTTCTGGGACTACTTCAGCCAGACCAGCGGGGACAAAGGCAGGGTGGAGCAGATCCATCAGCAGAAGATGGCTCGCGAGCCCGCGACCCTGAAAGACAGCCTTGAGCAAGACCTCAACAATATGAACAAGTTCCTGGAAAAGCTGAGGCCTCTGAGTGGGAGCGAGGCTCCTCGGCTCCCACAGGACCCGGTGGGCATGCGGCGGCAGCTGCAGGAGGAGTTGGAGGAGGTGAAGGCTCGCCTCCAGCCCTACATGGCAGAGGCGCACGAGCTGGTGGGCTGGAATTTGGAGGGCTTGCGGCAGCAACTGAAGCCCTACACGATGGATCTGATGGAGCAGGTGGCCCTGCGCGTGCAGGAGCTGCAGGAGCAGTTGCGCGTGGTGGGGGAAGACACCAAGGCCCAGTTGCTGGGGGGCGTGGACGAGGCTTGGGCTTTGCTGCAGGGACTGCAGAGCCGCGTGGTGCACCACACCGGCCGCTTCAAAGAGCTCTTCCACCCATACGCCGAGAGCCTGGTGAGCGGCATCGGGCGCCACGTGCAGGAGCTGCACCGCAGTGTGGCTCCGCACGCCCCCGCCAGCCCCGCGCGCCTCAGTCGCTGCGTGCAGGTGCTCTCCCGGAAGCTCACGCTCAAGGCCAAGGCCCTGCACGCACGCATCCAGCAGAACCTGGACCAGCTGCGCGAAGAGCTCAGCAGAGCCTTTGCAGGCACTGGGACTGAGGAAGGGGCCGGCCCGGACCCCCAGATGCTCTCCGAGGAGGTGCGCCAGCGACTTCAGGCTTTCCGCCAGGACACCTACCTGCAGATAGCTGCCTTCACTCGCGCCATCGACCAGGAGACTGAGGAGGTCCAGCAGCAGCTGGCGCCACCTCCACCAGGCCACAGTGCCTTCGCCCCAGAGTTTCAACAAACAGACAGTGGCAAGGTTCTGAGCAAGCTGCAGGCCCGTCTGGATGACCTGTGGGAAGACATCACTCACAGCCTTCATGACCAGGGCCACAGCCATCTGGGGGACCCCTGAGGATCTACCTGCCCAGGCCCATTCCCAGCTCCTTGTCTGGGGAGCCTTGGCTCTGAGCCTCTAGCATGGTTCAGTCCTTGAAAGTGGCCTGTTGGGTGGAGGGTGGAAGGTCCTGTGCAGGACAGGGAGGCCACCAAAGGGGCTGCTGTCTCCTGCACATCCAGCCTCCTGCGACTCCCCAATCTGGATGCATTACATTCACCAGGCTTTGCAAACCCAGCCTCCCAGTGCTCATTTGGGAATGCTCATGAGTTACTCCATTCAAGGGTGAGGGAGTAGGGAGGGAGAGGCACCATGCATGTGGGTGATTATCTGCAAGCCTGTTTGCCGTGATGCTGGAAGCCTGTGCCACTACATCCTGGAGTTTGGCTCTAGTCACTTCTGGC TGCCTGGTGGCCACTGCTACAGCTGGTCCACAGAGAGGAGCACTTGTCTCCCCAGGGCTGCCATGGCAGCTATCAGGGGAATAGAAGGGAGAAAGAGAATATCATGGGGAGAACATGTGATGGTGTGTGAATATCCCTGCTGGCTCTGATGCTGGTGGGTACGAAAGGTGTGGGCTGTGATAGGAGAGGGCAGAGCCCATGTTTCCTGACATAGCTCTACACCTAAATAAGGGACTGAACCCTCCCAACTGTGGGAGCTCCTTAAACCCTCTGGGGAGCATACTGTGTGCTCTCCCCATCTCCAGCCCCTCCCTCTGGGTTCCCAAGTTGAAGCCTAGACTTCTGGCTCAAATGAAATAGATGTTTATG

Suite

Organisation générale d'un gène eucaryote, avec séquences régulatrices et séquences de maturation