Kiterjesztés |
.fasta .fa |
---|---|
MIME típus | szöveg / sima |
Fejlesztette | William R. Pearson |
Formátum típusa | Szöveges fájl |
Eredete | FASTA programcsomag |
Leírás | Nyitott formátum |
A FASTA (vagy Pearson-képernyő ) egy szöveges fájl képernyője , amelyet biológiai szekvenciák, például nuklein vagy fehérje tárolására használnak . Ezeket a szekvenciákat az IUPAC-nómenklatúra szerinti nukleinsavakat vagy aminosavakat kódoló betűsorok képviselik . Minden sorozatot megelőzhet egy név és megjegyzések. Ez a formátum a FASTA programcsomagból származik, de széles körű használata miatt a bioinformatika de facto szabványává vált .
A FASTA formátum egyszerűsége megkönnyíti a szekvenciák manipulálását és olvasását (vagy értelmezését ) szövegszerkesztő eszközök és szkriptnyelvek , például Python , R , Ruby vagy Perl használatával .
A FASTA formátumú fájlokat általában kiterjesztéssel .fastavagy .fa.
A FASTA formátumot William R. Pearson fejlesztette ki a FASTA programjához . De használatát ezen az egyszerű programon túl elfogadták, és a BLAST program népszerűvé tette többek között .
A FASTA formátum szintén a FASTQ formátumban fejlődött ki , a FASTA és a QUAL méret kombinációja , amelyet széles körben használnak a DNS szélessávú szekvenálása terén .
A FASTA fájl legalább két sorból áll. Az 1. sor a ">" jellel kezdődő szekvenciát írja le, amelyet azonnal a szekvenciaazonosító és az azonosítótól szóközzel elválasztott megjegyzés követ. A ">" jel kötelező, de az azonosító és a megjegyzés opcionális, még akkor is, ha a jó bioinformatikai gyakorlatokkal kapcsolatos kérdések esetén erősen ajánlott legalább egy azonosítót hozzáadni a szekvenciához. Az azonosító és a megjegyzés bármilyen típusú karaktert tartalmazhat, kivéve a vezérlő karaktereket , amelyek nem a sor végét kódolják.
A 2. sor a szekvencia nukleinsavakat vagy aminosavakat képviselő betűiből áll . Ennek a vonalnak azonban legfeljebb 120 maradéka lehet: minden nagyobb hosszúságú szekvenciát több vonalra kell felosztani. Az első DEC-VT képernyő megjelenítéséhez kapcsolódó történelmi okokból az osztás általában 80 karakter, amely megfelel az akkor megengedett soronkénti 80 karakternek (párhuzamosan a nehezebben olvasható 132 üzemmóddal). Széles körben használják a 60 vagy 70 karakteres szakaszokat is, de ez a felosztás valójában végrehajtható bármilyen karakterlánc- hosszúsággal, amely legfeljebb 120 karakter lehet. Ha a sorozat olyan szóközöket, tabulátorokat vagy karaktereket tartalmaz, amelyek nem tartják tiszteletben az IUPAC nómenklatúrát , azokat figyelmen kívül hagyják.
Így egy FASTA fájl a következő formában van (a nukleinsavakat vagy aminosavakat képviselő X-ek):
>Identifiant Commentaire XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXA FASTA formátum szabványosítja a ";" jel használatát a megjegyzéshez tartozó sor elején (ezeket a sorokat figyelmen kívül kell hagyni).
A többszekvenciás vagy többszörös belépésű FASTA fájl olyan fájl, amely több, egyetlen természetű szekvenciát tartalmaz (nukleáris vagy fehérje), mindegyik szekvenciát megelőzi annak azonosító vonala. Ez a fájltípus létrehozható ab initio vagy egy vagy több szekvenciából álló FASTA fájlok összefűzésének eredménye . Tiszteletben tartja a korábbival megegyező formázást, a szekvencia végét azután újra értelmezi a ">" jel találkozása, amely egy másik szekvencia azonosító sorának kezdetét jelzi. A fájlok emberi olvasásának megkönnyítése érdekében ajánlott egy üres sort beilleszteni a sorozat vége és a következő ">" jel közé.
Itt van egy példa egy nukleinsav-szekvenciára:
>gi|373251181|ref|NG_001742.2| Mus musculus olfactory receptor GA_x5J8B7W2GLP-600-794 (LOC257854) pseudogène on chromosome 2 AGCCTGCCAAGCAAACTTCACTGGAGTGTGCGTAGCATGCTAGTAACTGCATCTGAATCTTTCAGCTGCT TGTTGGGCCTCTCACAAGGCAGAGTGTCTTCATGGGACTTTGATATTTATTTTTGTACAACCTAAGAGGA ACAAATCCTTTGACACTGACAAATTGGCTTCCATATTTTATACCTTAATCATCTCCATGTTGAATTCATT GATCAACAGTTTAAGAAAAAAAGATGTAAAAATGCTTTTAGAAAGAGAGGCAAAGTTATGCACAATAACT TCTCATGAAGTCACAGTTTGTTAAAAGTTGCCTTAGTTCACAATAAATAATTATGTATGCTCTATAATTT CAGTGAItt van egy példa egy fehérje szekvenciára:
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENYAz azonosító sor, amely a ">" jellel kezdődik, lehetővé teszi olyan név megadását, amely egyedi azonosítót tartalmazhat egy adott sorozathoz, valamint sok más, megjegyzéseknek tekintett információt. Számos szekvenciabank használ szabványosított azonosító vonalakat, amelyek hasznosak lehetnek az e sorokban található adatok automatikus kinyeréséhez. Az elavult gyakorlat lehetővé tette, hogy több azonosító vonalat társítsanak egybe a Start of Header vezérlő karakterrel ( 1. ASCII kód ).
A ";" jel által bevezetett megjegyzések sorai és amelyek az azonosító sorhoz társíthatók, a FASTA formátum első verzióiban megjelenő opciót a szekvenciabankok és egyes bioinformatikai programok nem ismerik fel az NCBI FASTA fájljainak specifikációi szerint .
Az NCBI meghatározta az egyedi sorozatok azonosítóinak ( SeqID ) előállítására vonatkozó szabványt az azonosító vonal számára. A formatdb kézikönyve a témáról azt mondta: "A formatdb automatikusan feldolgozza a Seq ID-t és indexeket hoz létre, de a FASTA fájl-azonosító sorokban lévő adatbázis-azonosítóknak meg kell felelniük a FASTA Defline Format konvencióinak ."
A FASTA Defline Format ( FASTA ) formátumról azonban nem adtak végleges leírást . Egy ilyen formátum létrehozásának kísérletét az alábbiakban ismertetjük (lásd még: "Az NCBI kézikönyv", 16. fejezet, A BLAST szekvenciaelemző eszköz ).
Adatbázis | Azonosító sor formátuma |
---|---|
GenBank | gi|numéro gi|gb|numéro d'accession|locus |
Európai Molekuláris Biológiai Laboratórium | gi|numéro gi|emb|numéro d'accession|locus |
Japán DNA Data Bank | gi|numéro gi|dbj|numéro d'accession|locus |
NBRF PIR | pir||entrée |
Protein Research Foundation | prf||nom |
Svájci-Prot | sp|numéro d'accession|nom |
Brookhaven Protein Data Bank (1) | pdb|entrée|chaîne |
Brookhaven Protein Data Bank (2) | entrée:chaîne|PDBID|CHAÎNE|SÉQUENCE |
Szabadalmak | pat|brevet|numéro |
GenInfo gerincazonosító | bbs|numéro |
Általános adatbázis-azonosító | gnl|base de données|identifiant |
NCBI referencia szekvencia | ref|numéro d'accession|locus |
Helyi szekvencia azonosító | lcl|identifiant |
A fenti listában található függőleges sáv nem szolgál elválasztóként a Backus-Naur forma értelmében, hanem a formátum egész része. A függőleges sáv segítségével több azonosító is összefűzhető.
A FASTA fájlban jelen lévő szekvenciák lehetnek nukleáris vagy fehérje jellegűek, és tartalmazhatnak hiányokat vagy karaktereket, amelyeket a szekvencia igazításában használnak . A szekvenciákat a nukleinsavak és aminosavak IUB / IUPAC szabványának kódjában kell képviselni , a következő kivételeket figyelembe véve:
A numerikus jelek nem megengedettek, de néhány adatbázisban felhasználhatók a szekvencián belüli pozíciók jelzésére.
Az elfogadott nukleinsav kód:
Nukleinsav kód | Jelentése | A memnikus memorizálás eszközei |
---|---|---|
NÁL NÉL | NÁL NÉL | hogy denine |
VS | VS | C- jozin |
G | G | G uanin |
T | T | T himin |
U | U | U versenyképes |
R | A vagy G | pu R ine |
Y | C, T vagy U | p Y rimidinek |
K | G, T vagy U | ketont tartalmazó bázisok ( angolul K etonok ) |
M | A vagy C | egy M ine csoportot tartalmazó bázisok |
S | C vagy G | erős interakció ( angolul S trong ) |
W | A, T vagy U | gyenge interakció ( angolul W eak ) |
B | különbözik A-tól (azaz C, G, T vagy U) | B jön A után |
D | különbözik a C-től (azaz A, G, T vagy U) | D jön C után |
H | különbözik a G-től (azaz A, C, T vagy U) | H G után jön |
V | sem T, sem U (azaz A, C vagy G) | V jön T és U után |
NEM | A, C, G, T vagy U | N ' sehol N ucléotide |
x | álcázott nukleinsav | |
- | rés |
Az aminosavkód (24 kód az aminosavakra és 3 speciális kód):
Aminosav kód | Jelentése |
---|---|
NÁL NÉL | Alanine |
B | Aszparaginsav vagy aszparagin |
VS | Cisztein |
D | Aszparaginsav |
E | Glutaminsav |
F | Fenilalanin |
G | Wisteria |
H | Hisztidin |
én | Izoleucin |
K | Lizin |
L | Leucin |
M | Metionin |
NEM | Asparagine |
O | Pirrolizin |
P | Proline |
Q | Glutamin |
R | Arginin |
S | Serine |
T | Treonin |
U | Szelenocisztein |
V | Valine |
W | Triptofán |
Y | Tirozin |
Z | Glutaminsav vagy Glutamin |
x | bármi |
* | stop kodon |
- | rés |
A FASTA-ban formázott szekvenciákat tartalmazó szöveges fájlokhoz nincs hivatalos fájlkiterjesztés . Az alábbi táblázat felsorolja a különféle használt kiterjesztéseket és azok jelentését.
Kiterjesztés | Jelentése | Hozzászólások |
---|---|---|
.fasta .fas .fa |
Általános FASTA | Bármilyen fasta. Az ilyen típusú fájlok kiterjesztése lehet .seq ( szekvenciához ) és .fsa (fasta szekvencia igazításhoz ) |
.fna | fasta nukleinsav | Nukleinsavszekvenciát tartalmazó FASTA fájl . A szekvenciák kódoló szekvenciák specifikus egy genom, a kiterjesztés .ffn kell előnyben részesíteni. |
.ffn | fasta funkcionális nukleotid | FASTA fájl, amely egy genom kódoló régiójának nukleinsavszekvenciáját tartalmazza. |
.faa | fasta aminosav | Aminosav-szekvenciát tartalmazó FASTA fájl . A több szekvenciát tartalmazó fájlnak lehet specifikusabb mpfa kiterjesztése . |
.frn | fasta RNS nem kódoló | A genom nem kódoló RNS-szekvenciáját (például tRNS-t vagy rRNS-t ) tartalmazó, de a DNS-kód nomenklatúrájába írt FASTA fájl (az uracilt timinnel helyettesítik ). |
A FASTA fájlok kötegesen konvertálhatók több szekvenciájú FASTA fájlokká vagy azokból meghatározott programok segítségével, némelyik ingyenes . A programok lehetővé teszik az ABI vagy SCF formátumú elektroforogram fájlok kötegelt átalakítását FASTA formátumra is.