Les différents formats de séquence

L'essentiel à savoir absolument

PCR et amorces :

Par convention :
- Le primer FORWARD (FWD - ou sens) à une séquence identique au brin codant (5’-3’)
- Le primer REVERSE (REV- ou antisens) a une séquence complémentaire au brin codant

Le primer FORWARD (ou left) est représenté par une flèche allant de la gauche vers la droite
Le primer Reverse (ou right) est représenté par une flèche allant de la droite vers la gauche
Les deux amorces pointent vers l’extrémité 3’ puisque les polymérases amplifient dans le sens 5’-3’

Le calcul de la taille d’un amplicon se fait en tilisant les positions 5’ de chaque amorce.

Ex : FWD : 125-145

REV : 259-240

Taille amplicon = 259-125+1

Comparaison de séquences :

L’outil le plus utilisé pour la comparaison de séquences est le logiciel BLAST : Basic Local Alignement Search Tool

Pour comparer deux séquences nucléotidiques : BLASTN
Pour comparer deux séquences protéiques : BLASTP
Pour comparer deux séquences protéiques à partir de séquences nucléotidiques: BLASTX

Les résultats sont rendus en fonction de la E-value : Probabilité selon laquelle les alignements sont dus au hasard. Plus la valeur de la E-Value est faible, et proche de zéro, plus l’alignement est pertinent (autrement dit plus le nombre de nucléotides identiques est grand.

Bases de données

Le site du NCBI renferme de nombreuses bases de données très utilisées en recherche.

PubMed : regroupe l’ensembles des publications scientifiques
PubMed Central (PMC) : regroupe l’ensembles des publications scientifiques dont l’accès est gratuit
Gene : pour rechercher des informations sur des séquences de gènes
Genome : pour rechercher des informations sur des séquences de génomes
Protein : pour rechercher des informations sur des séquences de protéines
Nucleotide : toute séquence nucléotidique autre que gènes et génomes (plasmide, fragment de séquence, région régulatrice….)

Les différents formats de séquence :

Format BRUT

Les lettres (bases azotés ou acides aminés) sont en minuscule, groupés par 10. Chaque ligne comprend 6 groupes de 10, et commence par la position de la première base. Pratique pour se repérer dans une séquence, connaissant la position des bases à chercher.

Exemple :

1 agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc

61 acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc

121 tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa

181 ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagcttg

241 catgcctgca ggtcgactct agaggatccc cgggtaccgg tagaaaaaat gagtaaagga

301 gaagaacttt tcactggagt tgtcccaatt cttgttgaat tagatggtga tgttaatggg

361 cacaaatttt ctgtcagtgg agagggtgaa ggtgatgcaa catacggaaa acttaccctt

Format FASTA

La séquence est présentée sous forme de lignes de 70 caractères maximum, précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Les lettres (bases ou acides aminés) sont toujours en majuscule. Cela permet de mettre plusieurs séquences dans un même fichier.

Exemple :

>U62636.1 Cloning vector pGFPuv, complete sequence AGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTT TCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAG GCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAA ACAGCTATGACCATGATTACGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGG TAGAAAAAATGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGTGA TGTTAATGGGCACAAATTTTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTT AAATTTATTTGCACTACTGGAAAACTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTG TTCAATGCTTTTCCCGTTATCCGGATCATATGAAACGGCATGACTTTTTCAAGAGTGCCATGCCCGAAGG TTATGTACAGGAACGCACTATATCTTTCAAAGATGACGGGAACTACAAGACGCGTGCTGAAGTCAAGTTT GAAGGTGATACCCTTGTTAATCGTATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTCG GACACAAACTCGAGTACAACTATAACTCACACAATGTATACATCACGGCAGACAAACAAAAGAATGGAAT CAAAGCTAACTTCAAAATTCGCCACAACATTGAAGATGGATCCGTTCAACTAGCAGACCATTATCAACAA AATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCGACACAATCTGCCCTTT

Format GenPept (protéine) ou GenBank (ADN)

Comprend un ensemble d’informations sur la séquence et se termine par la séquence au format brut

Exemple :

Notion de « complement » :

Dans une séquence au format GenBank, pour un plasmide par exemple, on peut trouver le terme « complement » associé à une région ou une séquence donnée : cela signifie que la séquence se trouve sur le brin complémentaire à celui donné dans la banque (dans le sens 5’-3’ évidemment car c’est le seul sens qui est codant).