FASTA (fájlformátum)

FASTA Jellemzők
Kiterjesztés .fasta
.fa
MIME típus szöveg / sima
Fejlesztette William R. Pearson
Formátum típusa Szöveges fájl
Eredete FASTA programcsomag
Leírás Nyitott formátum

A FASTA (vagy Pearson-képernyő ) egy szöveges fájl képernyője , amelyet biológiai szekvenciák, például nuklein vagy fehérje tárolására használnak . Ezeket a szekvenciákat az IUPAC-nómenklatúra szerinti nukleinsavakat vagy aminosavakat kódoló betűsorok képviselik . Minden sorozatot megelőzhet egy név és megjegyzések. Ez a formátum a FASTA programcsomagból származik, de széles körű használata miatt a bioinformatika de facto szabványává vált .

A FASTA formátum egyszerűsége megkönnyíti a szekvenciák manipulálását és olvasását (vagy értelmezését ) szövegszerkesztő eszközök és szkriptnyelvek , például Python , R , Ruby vagy Perl használatával .

A FASTA formátumú fájlokat általában kiterjesztéssel .fastavagy .fa.

Történelmi

A FASTA formátumot William R. Pearson fejlesztette ki a FASTA programjához . De használatát ezen az egyszerű programon túl elfogadták, és a BLAST program népszerűvé tette többek között .

A FASTA formátum szintén a FASTQ formátumban fejlődött ki , a FASTA és a QUAL méret kombinációja , amelyet széles körben használnak a DNS szélessávú szekvenálása terén .

Formátum

Leírás

A FASTA fájl legalább két sorból áll. Az 1. sor a ">" jellel kezdődő szekvenciát írja le, amelyet azonnal a szekvenciaazonosító és az azonosítótól szóközzel elválasztott megjegyzés követ. A ">" jel kötelező, de az azonosító és a megjegyzés opcionális, még akkor is, ha a bioinformatikai gyakorlatokkal kapcsolatos kérdések esetén erősen ajánlott legalább egy azonosítót hozzáadni a szekvenciához. Az azonosító és a megjegyzés bármilyen típusú karaktert tartalmazhat, kivéve a vezérlő karaktereket , amelyek nem a sor végét kódolják.

A 2. sor a szekvencia nukleinsavakat vagy aminosavakat képviselő betűiből áll . Ennek a vonalnak azonban legfeljebb 120 maradéka lehet: minden nagyobb hosszúságú szekvenciát több vonalra kell felosztani. Az első DEC-VT képernyő megjelenítéséhez kapcsolódó történelmi okokból az osztás általában 80 karakter, amely megfelel az akkor megengedett soronkénti 80 karakternek (párhuzamosan a nehezebben olvasható 132 üzemmóddal). Széles körben használják a 60 vagy 70 karakteres szakaszokat is, de ez a felosztás valójában végrehajtható bármilyen karakterlánc- hosszúsággal, amely legfeljebb 120 karakter lehet. Ha a sorozat olyan szóközöket, tabulátorokat vagy karaktereket tartalmaz, amelyek nem tartják tiszteletben az IUPAC nómenklatúrát , azokat figyelmen kívül hagyják.

Így egy FASTA fájl a következő formában van (a nukleinsavakat vagy aminosavakat képviselő X-ek):

>Identifiant Commentaire XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

A FASTA formátum szabványosítja a ";" jel használatát a megjegyzéshez tartozó sor elején (ezeket a sorokat figyelmen kívül kell hagyni).

Több szekvenciás fájl

A többszekvenciás vagy többszörös belépésű FASTA fájl olyan fájl, amely több, egyetlen természetű szekvenciát tartalmaz (nukleáris vagy fehérje), mindegyik szekvenciát megelőzi annak azonosító vonala. Ez a fájltípus létrehozható ab initio vagy egy vagy több szekvenciából álló FASTA fájlok összefűzésének eredménye . Tiszteletben tartja a korábbival megegyező formázást, a szekvencia végét azután újra értelmezi a ">" jel találkozása, amely egy másik szekvencia azonosító sorának kezdetét jelzi. A fájlok emberi olvasásának megkönnyítése érdekében ajánlott egy üres sort beilleszteni a sorozat vége és a következő ">" jel közé.

Tipikus példák

Itt van egy példa egy nukleinsav-szekvenciára:

>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGA

Itt van egy példa egy fehérje szekvenciára:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Szekvenciaazonosítók

Az azonosító sor, amely a ">" jellel kezdődik, lehetővé teszi olyan név megadását, amely egyedi azonosítót tartalmazhat egy adott sorozathoz, valamint sok más, megjegyzéseknek tekintett információt. Számos szekvenciabank használ szabványosított azonosító vonalakat, amelyek hasznosak lehetnek az e sorokban található adatok automatikus kinyeréséhez. Az elavult gyakorlat lehetővé tette, hogy több azonosító vonalat társítsanak egybe a Start of Header vezérlő karakterrel ( 1. ASCII kód ).

A ";" jel által bevezetett megjegyzések sorai és amelyek az azonosító sorhoz társíthatók, a FASTA formátum első verzióiban megjelenő opciót a szekvenciabankok és egyes bioinformatikai programok nem ismerik fel az NCBI FASTA fájljainak specifikációi szerint .

Az NCBI meghatározta az egyedi sorozatok azonosítóinak ( SeqID ) előállítására vonatkozó szabványt az azonosító vonal számára. A formatdb kézikönyve a témáról azt mondta: "A formatdb automatikusan feldolgozza a Seq ID-t és indexeket hoz létre, de a FASTA fájl-azonosító sorokban lévő adatbázis-azonosítóknak meg kell felelniük a FASTA Defline Format konvencióinak ."

A FASTA Defline Format ( FASTA ) formátumról azonban nem adtak végleges leírást . Egy ilyen formátum létrehozásának kísérletét az alábbiakban ismertetjük (lásd még: "Az NCBI kézikönyv", 16. fejezet, A BLAST szekvenciaelemző eszköz ).

Adatbázis Azonosító sor formátuma
GenBank gi|numéro gi|gb|numéro d'accession|locus
Európai Molekuláris Biológiai Laboratórium gi|numéro gi|emb|numéro d'accession|locus
Japán DNA Data Bank gi|numéro gi|dbj|numéro d'accession|locus
NBRF PIR pir||entrée
Protein Research Foundation prf||nom
Svájci-Prot sp|numéro d'accession|nom
Brookhaven Protein Data Bank (1) pdb|entrée|chaîne
Brookhaven Protein Data Bank (2) entrée:chaîne|PDBID|CHAÎNE|SÉQUENCE
Szabadalmak pat|brevet|numéro
GenInfo gerincazonosító bbs|numéro
Általános adatbázis-azonosító gnl|base de données|identifiant
NCBI referencia szekvencia ref|numéro d'accession|locus
Helyi szekvencia azonosító lcl|identifiant

A fenti listában található függőleges sáv nem szolgál elválasztóként a Backus-Naur forma értelmében, hanem a formátum egész része. A függőleges sáv segítségével több azonosító is összefűzhető.

A szekvenciák ábrázolása

A FASTA fájlban jelen lévő szekvenciák lehetnek nukleáris vagy fehérje jellegűek, és tartalmazhatnak hiányokat vagy karaktereket, amelyeket a szekvencia igazításában használnak . A szekvenciákat a nukleinsavak és aminosavak IUB / IUPAC szabványának kódjában kell képviselni , a következő kivételeket figyelembe véve:

A numerikus jelek nem megengedettek, de néhány adatbázisban felhasználhatók a szekvencián belüli pozíciók jelzésére.

Az elfogadott nukleinsav kód:

Nukleinsav kód Jelentése A memnikus memorizálás eszközei
NÁL NÉL NÁL NÉL hogy denine
VS VS C- jozin
G G G uanin
T T T himin
U U U versenyképes
R A vagy G pu R ine
Y C, T vagy U p Y rimidinek
K G, T vagy U ketont tartalmazó bázisok ( angolul K etonok )
M A vagy C egy M ine csoportot tartalmazó bázisok
S C vagy G erős interakció ( angolul S trong )
W A, T vagy U gyenge interakció ( angolul W eak )
B különbözik A-tól (azaz C, G, T vagy U) B jön A után
D különbözik a C-től (azaz A, G, T vagy U) D jön C után
H különbözik a G-től (azaz A, C, T vagy U) H G után jön
V sem T, sem U (azaz A, C vagy G) V jön T és U után
NEM A, C, G, T vagy U N ' sehol N ucléotide
x álcázott nukleinsav
- rés

Az aminosavkód (24 kód az aminosavakra és 3 speciális kód):

Aminosav kód Jelentése
NÁL NÉL Alanine
B Aszparaginsav vagy aszparagin
VS Cisztein
D Aszparaginsav
E Glutaminsav
F Fenilalanin
G Wisteria
H Hisztidin
én Izoleucin
K Lizin
L Leucin
M Metionin
NEM Asparagine
O Pirrolizin
P Proline
Q Glutamin
R Arginin
S Serine
T Treonin
U Szelenocisztein
V Valine
W Triptofán
Y Tirozin
Z Glutaminsav vagy Glutamin
x bármi
* stop kodon
- rés

Fájlkiterjesztések

A FASTA-ban formázott szekvenciákat tartalmazó szöveges fájlokhoz nincs hivatalos fájlkiterjesztés . Az alábbi táblázat felsorolja a különféle használt kiterjesztéseket és azok jelentését.

Kiterjesztés Jelentése Hozzászólások
.fasta
.fas
.fa
Általános FASTA Bármilyen fasta. Az ilyen típusú fájlok kiterjesztése lehet .seq ( szekvenciához ) és .fsa (fasta szekvencia igazításhoz )
.fna fasta nukleinsav Nukleinsavszekvenciát tartalmazó FASTA fájl . A szekvenciák kódoló szekvenciák specifikus egy genom, a kiterjesztés .ffn kell előnyben részesíteni.
.ffn fasta funkcionális nukleotid FASTA fájl, amely egy genom kódoló régiójának nukleinsavszekvenciáját tartalmazza.
.faa fasta aminosav Aminosav-szekvenciát tartalmazó FASTA fájl . A több szekvenciát tartalmazó fájlnak lehet specifikusabb mpfa kiterjesztése .
.frn fasta RNS nem kódoló A genom nem kódoló RNS-szekvenciáját (például tRNS-t vagy rRNS-t ) tartalmazó, de a DNS-kód nomenklatúrájába írt FASTA fájl (az uracilt timinnel helyettesítik ).

Formátum-átalakítók

A FASTA fájlok kötegesen konvertálhatók több szekvenciájú FASTA fájlokká vagy azokból meghatározott programok segítségével, némelyik ingyenes . A programok lehetővé teszik az ABI vagy SCF formátumú elektroforogram fájlok kötegelt átalakítását FASTA formátumra is.

Hivatkozások

  1. (in) Cock PJ., Fields CJ., N. Goto, Heuer ML. & Rice PM., „  A Sanger FASTQ fájlformátum minőségi pontszámokkal rendelkező szekvenciákhoz és a Solexa / Illumina FASTQ variánsok.  ” , Nucleic Acids Research , vol.  38, n o  6, 2010, P.  1767-71 ( ISSN  1362-4962 , PMID  20015970 , DOI  10.1093 / nar / gkp1137 )
  2. (en) William R. Pearson, „  A FASTA programcsomag 3.x verzióinak dokumentálása  ” , a Biológiai Szekvenciaelemzés Központjában (hozzáférés : 2013. február 9. )
  3. (in) "  formatdb Manual  " a Manned.org oldalon (hozzáférés: 2013. február 9. )
  4. (in) Tao Tao [külső kapcsolat eltávolítva] , "  egybetűs nukleotid kódja  " a www.ncbi.nlm.nih.gov oldalon , a Nemzeti Biotechnológiai Információs Központ ,2011. augusztus 24(megtekintés : 2012. március 15. )
  5. (in) "  IUPAC kódtáblázat  " a www.dna.affrc.go.jp oldalon , a NIAS DNA Bank (hozzáférés: 2013. február 9. )

Lásd is

Kapcsolódó cikkek

Külső linkek