top of page

Les différents formats de séquence

​Format STADEN

 

Le plus ancien et le plus simple. Il se présente sous forme d’une suite de 80 caractères au maximum par ligne terminée par un retour-à-la-ligne. Ce format n'autorise qu'une séquence par fichier.

Format BRUT

 

Les lettres (bases azotés ou acides aminés) sont en minuscule, groupés par 10. Chaque ligne comprend 6 groupes de 10, et commence par la position de la première base. Pratique pour se repérer dans une séquence, connaissant la position des bases à chercher.

Voir un exemple en bas de cette page.

Format FASTA

La séquence est présentée sous forme de lignes de 70 caractères maximum, précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Les lettres (bases ou acides aminés) sont toujours en majuscule. Cela permet de mettre plusieurs séquences dans un même fichier.


>gi|93278996|pdb|2C8R|B Chain B, Insuline(60sec) And Uv Laser Excited Fluorescence

FVNQHLCGSHLVEALYLVCGERGFFYTPK

 


Format GenPept (protéine) ou GenBank (ADN)

 

 

 

 

 

 

Pour plus d'informations sur le décryptage d'une séquence au format genbank et la signification des différents termes, vous trouverez toutes les infos ici :

https://www.ncbi.nlm.nih.gov/genbank/samplerecord/

http://www.insdc.org/documents/feature-table

bottom of page