FASTA (fájlformátum)

FASTA Jellemzők

Kiterjesztés	.fasta .fa
MIME típus	szöveg / sima
Fejlesztette	William R. Pearson
Formátum típusa	Szöveges fájl
Eredete	FASTA programcsomag
Leírás	Nyitott formátum

A FASTA (vagy Pearson-képernyő ) egy szöveges fájl képernyője , amelyet biológiai szekvenciák, például nuklein vagy fehérje tárolására használnak . Ezeket a szekvenciákat az IUPAC-nómenklatúra szerinti nukleinsavakat vagy aminosavakat kódoló betűsorok képviselik . Minden sorozatot megelőzhet egy név és megjegyzések. Ez a formátum a FASTA programcsomagból származik, de széles körű használata miatt a bioinformatika de facto szabványává vált .

A FASTA formátum egyszerűsége megkönnyíti a szekvenciák manipulálását és olvasását (vagy értelmezését ) szövegszerkesztő eszközök és szkriptnyelvek , például Python , R , Ruby vagy Perl használatával .

A FASTA formátumú fájlokat általában kiterjesztéssel .fastavagy .fa.

Történelmi

A FASTA formátumot William R. Pearson fejlesztette ki a FASTA programjához . De használatát ezen az egyszerű programon túl elfogadták, és a BLAST program népszerűvé tette többek között .

A FASTA formátum szintén a FASTQ formátumban fejlődött ki , a FASTA és a QUAL méret kombinációja , amelyet széles körben használnak a DNS szélessávú szekvenálása terén .

Formátum

Leírás

A FASTA fájl legalább két sorból áll. Az 1. sor a ">" jellel kezdődő szekvenciát írja le, amelyet azonnal a szekvenciaazonosító és az azonosítótól szóközzel elválasztott megjegyzés követ. A ">" jel kötelező, de az azonosító és a megjegyzés opcionális, még akkor is, ha a jó bioinformatikai gyakorlatokkal kapcsolatos kérdések esetén erősen ajánlott legalább egy azonosítót hozzáadni a szekvenciához. Az azonosító és a megjegyzés bármilyen típusú karaktert tartalmazhat, kivéve a vezérlő karaktereket , amelyek nem a sor végét kódolják.

A 2. sor a szekvencia nukleinsavakat vagy aminosavakat képviselő betűiből áll . Ennek a vonalnak azonban legfeljebb 120 maradéka lehet: minden nagyobb hosszúságú szekvenciát több vonalra kell felosztani. Az első DEC-VT képernyő megjelenítéséhez kapcsolódó történelmi okokból az osztás általában 80 karakter, amely megfelel az akkor megengedett soronkénti 80 karakternek (párhuzamosan a nehezebben olvasható 132 üzemmóddal). Széles körben használják a 60 vagy 70 karakteres szakaszokat is, de ez a felosztás valójában végrehajtható bármilyen karakterlánc- hosszúsággal, amely legfeljebb 120 karakter lehet. Ha a sorozat olyan szóközöket, tabulátorokat vagy karaktereket tartalmaz, amelyek nem tartják tiszteletben az IUPAC nómenklatúrát , azokat figyelmen kívül hagyják.

Így egy FASTA fájl a következő formában van (a nukleinsavakat vagy aminosavakat képviselő X-ek):

>Identifiant Commentaire XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

A FASTA formátum szabványosítja a ";" jel használatát a megjegyzéshez tartozó sor elején (ezeket a sorokat figyelmen kívül kell hagyni).

Több szekvenciás fájl

A többszekvenciás vagy többszörös belépésű FASTA fájl olyan fájl, amely több, egyetlen természetű szekvenciát tartalmaz (nukleáris vagy fehérje), mindegyik szekvenciát megelőzi annak azonosító vonala. Ez a fájltípus létrehozható ab initio vagy egy vagy több szekvenciából álló FASTA fájlok összefűzésének eredménye . Tiszteletben tartja a korábbival megegyező formázást, a szekvencia végét azután újra értelmezi a ">" jel találkozása, amely egy másik szekvencia azonosító sorának kezdetét jelzi. A fájlok emberi olvasásának megkönnyítése érdekében ajánlott egy üres sort beilleszteni a sorozat vége és a következő ">" jel közé.

Tipikus példák

Itt van egy példa egy nukleinsav-szekvenciára:

>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGA

Itt van egy példa egy fehérje szekvenciára:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Szekvenciaazonosítók

Az azonosító sor, amely a ">" jellel kezdődik, lehetővé teszi olyan név megadását, amely egyedi azonosítót tartalmazhat egy adott sorozathoz, valamint sok más, megjegyzéseknek tekintett információt. Számos szekvenciabank használ szabványosított azonosító vonalakat, amelyek hasznosak lehetnek az e sorokban található adatok automatikus kinyeréséhez. Az elavult gyakorlat lehetővé tette, hogy több azonosító vonalat társítsanak egybe a Start of Header vezérlő karakterrel ( 1. ASCII kód ).

A ";" jel által bevezetett megjegyzések sorai és amelyek az azonosító sorhoz társíthatók, a FASTA formátum első verzióiban megjelenő opciót a szekvenciabankok és egyes bioinformatikai programok nem ismerik fel az NCBI FASTA fájljainak specifikációi szerint .

Az NCBI meghatározta az egyedi sorozatok azonosítóinak ( SeqID ) előállítására vonatkozó szabványt az azonosító vonal számára. A formatdb kézikönyve a témáról azt mondta: "A formatdb automatikusan feldolgozza a Seq ID-t és indexeket hoz létre, de a FASTA fájl-azonosító sorokban lévő adatbázis-azonosítóknak meg kell felelniük a FASTA Defline Format konvencióinak ."

A FASTA Defline Format ( FASTA ) formátumról azonban nem adtak végleges leírást . Egy ilyen formátum létrehozásának kísérletét az alábbiakban ismertetjük (lásd még: "Az NCBI kézikönyv", 16. fejezet, A BLAST szekvenciaelemző eszköz ).

Adatbázis	Azonosító sor formátuma
GenBank	gi\|numéro gi\|gb\|numéro d'accession\|locus
Európai Molekuláris Biológiai Laboratórium	gi\|numéro gi\|emb\|numéro d'accession\|locus
Japán DNA Data Bank	gi\|numéro gi\|dbj\|numéro d'accession\|locus
NBRF PIR	pir\|\|entrée
Protein Research Foundation	prf\|\|nom
Svájci-Prot	sp\|numéro d'accession\|nom
Brookhaven Protein Data Bank (1)	pdb\|entrée\|chaîne
Brookhaven Protein Data Bank (2)	entrée:chaîne\|PDBID\|CHAÎNE\|SÉQUENCE
Szabadalmak	pat\|brevet\|numéro
GenInfo gerincazonosító	bbs\|numéro
Általános adatbázis-azonosító	gnl\|base de données\|identifiant
NCBI referencia szekvencia	ref\|numéro d'accession\|locus
Helyi szekvencia azonosító	lcl\|identifiant

A fenti listában található függőleges sáv nem szolgál elválasztóként a Backus-Naur forma értelmében, hanem a formátum egész része. A függőleges sáv segítségével több azonosító is összefűzhető.

A szekvenciák ábrázolása

A FASTA fájlban jelen lévő szekvenciák lehetnek nukleáris vagy fehérje jellegűek, és tartalmazhatnak hiányokat vagy karaktereket, amelyeket a szekvencia igazításában használnak . A szekvenciákat a nukleinsavak és aminosavak IUB / IUPAC szabványának kódjában kell képviselni , a következő kivételeket figyelembe véve:

kisbetűs betűket elfogadott és változott nagybetűs ,
a "-" jel használható rés megjelenítésére ,
fehérjeszekvenciákban az "U" és a "*" jeleket elfogadják (lásd alább).

A numerikus jelek nem megengedettek, de néhány adatbázisban felhasználhatók a szekvencián belüli pozíciók jelzésére.

Az elfogadott nukleinsav kód:

Nukleinsav kód	Jelentése	A memnikus memorizálás eszközei
NÁL NÉL	NÁL NÉL	hogy denine
VS	VS	C- jozin
G	G	G uanin
T	T	T himin
U	U	U versenyképes
R	A vagy G	pu R ine
Y	C, T vagy U	p Y rimidinek
K	G, T vagy U	ketont tartalmazó bázisok ( angolul K etonok )
M	A vagy C	egy M ine csoportot tartalmazó bázisok
S	C vagy G	erős interakció ( angolul S trong )
W	A, T vagy U	gyenge interakció ( angolul W eak )
B	különbözik A-tól (azaz C, G, T vagy U)	B jön A után
D	különbözik a C-től (azaz A, G, T vagy U)	D jön C után
H	különbözik a G-től (azaz A, C, T vagy U)	H G után jön
V	sem T, sem U (azaz A, C vagy G)	V jön T és U után
NEM	A, C, G, T vagy U	N ' sehol N ucléotide
x	álcázott nukleinsav
-	rés

Az aminosavkód (24 kód az aminosavakra és 3 speciális kód):

Aminosav kód	Jelentése
NÁL NÉL	Alanine
B	Aszparaginsav vagy aszparagin
VS	Cisztein
D	Aszparaginsav
E	Glutaminsav
F	Fenilalanin
G	Wisteria
H	Hisztidin
én	Izoleucin
K	Lizin
L	Leucin
M	Metionin
NEM	Asparagine
O	Pirrolizin
P	Proline
Q	Glutamin
R	Arginin
S	Serine
T	Treonin
U	Szelenocisztein
V	Valine
W	Triptofán
Y	Tirozin
Z	Glutaminsav vagy Glutamin
x	bármi
*	stop kodon
-	rés

Fájlkiterjesztések

A FASTA-ban formázott szekvenciákat tartalmazó szöveges fájlokhoz nincs hivatalos fájlkiterjesztés . Az alábbi táblázat felsorolja a különféle használt kiterjesztéseket és azok jelentését.

Kiterjesztés	Jelentése	Hozzászólások
.fasta .fas .fa	Általános FASTA	Bármilyen fasta. Az ilyen típusú fájlok kiterjesztése lehet .seq ( szekvenciához ) és .fsa (fasta szekvencia igazításhoz )
.fna	fasta nukleinsav	Nukleinsavszekvenciát tartalmazó FASTA fájl . A szekvenciák kódoló szekvenciák specifikus egy genom, a kiterjesztés .ffn kell előnyben részesíteni.
.ffn	fasta funkcionális nukleotid	FASTA fájl, amely egy genom kódoló régiójának nukleinsavszekvenciáját tartalmazza.
.faa	fasta aminosav	Aminosav-szekvenciát tartalmazó FASTA fájl . A több szekvenciát tartalmazó fájlnak lehet specifikusabb mpfa kiterjesztése .
.frn	fasta RNS nem kódoló	A genom nem kódoló RNS-szekvenciáját (például tRNS-t vagy rRNS-t ) tartalmazó, de a DNS-kód nomenklatúrájába írt FASTA fájl (az uracilt timinnel helyettesítik ).

Formátum-átalakítók

A FASTA fájlok kötegesen konvertálhatók több szekvenciájú FASTA fájlokká vagy azokból meghatározott programok segítségével, némelyik ingyenes . A programok lehetővé teszik az ABI vagy SCF formátumú elektroforogram fájlok kötegelt átalakítását FASTA formátumra is.

Hivatkozások

(in) Cock PJ., Fields CJ., N. Goto, Heuer ML. & Rice PM., „ A Sanger FASTQ fájlformátum minőségi pontszámokkal rendelkező szekvenciákhoz és a Solexa / Illumina FASTQ variánsok. ” , Nucleic Acids Research , vol. 38, n o 6, 2010, P. 1767-71 ( ISSN 1362-4962 , PMID 20015970 , DOI 10.1093 / nar / gkp1137 )
(en) William R. Pearson, „ A FASTA programcsomag 3.x verzióinak dokumentálása ” , a Biológiai Szekvenciaelemzés Központjában (hozzáférés : 2013. február 9. )
(in) " formatdb Manual " a Manned.org oldalon (hozzáférés: 2013. február 9. )
(in) Tao Tao [külső kapcsolat eltávolítva] , " egybetűs nukleotid kódja " a www.ncbi.nlm.nih.gov oldalon , a Nemzeti Biotechnológiai Információs Központ ,2011. augusztus 24(megtekintés : 2012. március 15. )
(in) " IUPAC kódtáblázat " a www.dna.affrc.go.jp oldalon , a NIAS DNA Bank (hozzáférés: 2013. február 9. )

( Fr ) Ez a cikk részben vagy egészben venni a Wikipedia cikket angolul című „ FASTA_format ” ( lásd a szerzők listáját ) .

Lásd is

Kapcsolódó cikkek

FASTA programcsomag
FASTQ
Stockholm fájlformátum
A molekuláris biológia fájlformátumainak felsorolása

Külső linkek

(en) Mi a FASTA formátum? A FASTA formátumot részletező webhely.
(en) A HUPO-PSI szabványos FASTA formátuma leír egy másik FASTA formátumot, amelyet a Humán Proteom Szervezet Proteomikai Szabványügyi Kezdeményezése javasolt .
(en) Az NCBI szekvenciák FASTA azonosító sorainak Sequence ID (SeqID) mezői a FASTA fájlok azonosító sorainak formázását írják le.
(en) Fájlok konvertálása FASTA formátumba
(hu) www.dnabaser.com/download - Átalakító ABI / SCF / Txt / MultiFasta / Fasta / Seq / GBK formátumba, amely lehetővé teszi a szekvenciavégek automatikus tisztítását és a kötegelt átalakítást.
en) Az NCBI által elfogadott FASTA formátum meghatározása