Les différents formats de séquence
Format STADEN
Le plus ancien et le plus simple. Il se présente sous forme d’une suite de 80 caractères au maximum par ligne terminée par un retour-à-la-ligne. Ce format n'autorise qu'une séquence par fichier.
Format BRUT
Les lettres (bases azotés ou acides aminés) sont en minuscule, groupés par 10. Chaque ligne comprend 6 groupes de 10, et commence par la position de la première base. Pratique pour se repérer dans une séquence, connaissant la position des bases à chercher.
Voir un exemple en bas de cette page.
Format FASTA
La séquence est présentée sous forme de lignes de 70 caractères maximum, précédée d'une ligne de titre (nom, définition ...) qui doit commencer par le caractère ">". Les lettres (bases ou acides aminés) sont toujours en majuscule. Cela permet de mettre plusieurs séquences dans un même fichier.
>gi|93278996|pdb|2C8R|B Chain B, Insuline(60sec) And Uv Laser Excited Fluorescence
FVNQHLCGSHLVEALYLVCGERGFFYTPK
Format GenPept (protéine) ou GenBank (ADN)
Pour plus d'informations sur le décryptage d'une séquence au format genbank et la signification des différents termes, vous trouverez toutes les infos ici :
https://www.ncbi.nlm.nih.gov/genbank/samplerecord/
http://www.insdc.org/documents/feature-table