L'essentiel à savoir absolument
PCR et amorces :
Par convention :
- Le primer FORWARD (FWD - ou sens) à une séquence identique au brin codant (5’-3’)
- Le primer REVERSE (REV- ou antisens) a une séquence complémentaire au brin codant
-
Le primer FORWARD (ou left) est représenté par une flèche allant de la gauche vers la droite
-
Le primer Reverse (ou right) est représenté par une flèche allant de la droite vers la gauche
-
Les deux amorces pointent vers l’extrémité 3’ puisque les polymérases amplifient dans le sens 5’-3’
Le calcul de la taille d’un amplicon se fait en tilisant les positions 5’ de chaque amorce.
Ex : FWD : 125-145
REV : 259-240
Taille amplicon = 259-125+1
Comparaison de séquences :
L’outil le plus utilisé pour la comparaison de séquences est le logiciel BLAST : Basic Local Alignement Search Tool
-
Pour comparer deux séquences nucléotidiques : BLASTN
-
Pour comparer deux séquences protéiques : BLASTP
-
Pour comparer deux séquences protéiques à partir de séquences nucléotidiques: BLASTX
Les résultats sont rendus en fonction de la E-value : Probabilité selon laquelle les alignements sont dus au hasard. Plus la valeur de la E-Value est faible, et proche de zéro, plus l’alignement est pertinent (autrement dit plus le nombre de nucléotides identiques est grand.
Bases de données
Le site du NCBI renferme de nombreuses bases de données très utilisées en recherche.
-
PubMed : regroupe l’ensembles des publications scientifiques
-
PubMed Central (PMC) : regroupe l’ensembles des publications scientifiques dont l’accès est gratuit
-
Gene : pour rechercher des informations sur des séquences de gènes
-
Genome : pour rechercher des informations sur des séquences de génomes
-
Protein : pour rechercher des informations sur des séquences de protéines
-
Nucleotide : toute séquence nucléotidique autre que gènes et génomes (plasmide, fragment de séquence, région régulatrice….)
Les différents formats de séquence :
Format BRUT
Les lettres (bases azotés ou acides aminés) sont en minuscule, groupés par 10. Chaque ligne comprend 6 groupes de 10, et commence par la position de la première base. Pratique pour se repérer dans une séquence, connaissant la position des bases à chercher.
Exemple :
1 agcgcccaat acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc
61 acgacaggtt tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc
121 tcactcatta ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa
181 ttgtgagcgg ataacaattt cacacaggaa acagctatga ccatgattac gccaagcttg
241 catgcctgca ggtcgactct agaggatccc cgggtaccgg tagaaaaaat gagtaaagga
301 gaagaacttt tcactggagt tgtcccaatt cttgttgaat tagatggtga tgttaatggg
361 cacaaatttt ctgtcagtgg agagggtgaa ggtgatgcaa catacggaaa acttaccctt
Format FASTA
La séquence est présentée sous forme de lignes de 70 caractères maximum, précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Les lettres (bases ou acides aminés) sont toujours en majuscule. Cela permet de mettre plusieurs séquences dans un même fichier.
Exemple :
>U62636.1 Cloning vector pGFPuv, complete sequence AGCGCCCAATACGCAAACCGCCTCTCCCCGCGCGTTGGCCGATTCATTAATGCAGCTGGCACGACAGGTT TCCCGACTGGAAAGCGGGCAGTGAGCGCAACGCAATTAATGTGAGTTAGCTCACTCATTAGGCACCCCAG GCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGGATAACAATTTCACACAGGAA ACAGCTATGACCATGATTACGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGG TAGAAAAAATGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGTGA TGTTAATGGGCACAAATTTTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTT AAATTTATTTGCACTACTGGAAAACTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTG TTCAATGCTTTTCCCGTTATCCGGATCATATGAAACGGCATGACTTTTTCAAGAGTGCCATGCCCGAAGG TTATGTACAGGAACGCACTATATCTTTCAAAGATGACGGGAACTACAAGACGCGTGCTGAAGTCAAGTTT GAAGGTGATACCCTTGTTAATCGTATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTCG GACACAAACTCGAGTACAACTATAACTCACACAATGTATACATCACGGCAGACAAACAAAAGAATGGAAT CAAAGCTAACTTCAAAATTCGCCACAACATTGAAGATGGATCCGTTCAACTAGCAGACCATTATCAACAA AATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCGACACAATCTGCCCTTT
Format GenPept (protéine) ou GenBank (ADN)
Comprend un ensemble d’informations sur la séquence et se termine par la séquence au format brut
Exemple :
Notion de « complement » :
Dans une séquence au format GenBank, pour un plasmide par exemple, on peut trouver le terme « complement » associé à une région ou une séquence donnée : cela signifie que la séquence se trouve sur le brin complémentaire à celui donné dans la banque (dans le sens 5’-3’ évidemment car c’est le seul sens qui est codant).