ROBBANÁS
Fejlesztette | Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI |
---|---|
Utolsó verzió | 2.9.0+ (1 st április 2019) |
Beírva | C és C ++ |
Operációs rendszer | Írja be a Unix , a Linux , a macOS és a Microsoft Windows parancsot |
Környezet | Cross-platform |
Olvassa el a formátumokat | XML BLAST kimenet ( d ) |
Írásos formátumok | XML BLAST kimenet ( d ) |
típus | Bioinformatikai eszköz |
Engedély | Közösségi terület |
Weboldal | blast.ncbi.nlm.nih.gov |
A BLAST (rövidítés az alapvető helyi igazítás kereső eszközhöz ) egy heurisztikus keresési módszer, amelyet a bioinformatikában használnak . Ez lehetővé teszi a hasonló régiók megkeresését a nukleotidok vagy aminosavak két vagy több szekvenciája között , és lehetővé teszi a homológ régiók összehangolását .
A felhasználó által beírt szekvencia alapján a BLAST lehetővé teszi az adatbázisok gyors megtalálását, a felsorolt szekvenciák hasonló területekkel rendelkeznek a bemeneti szekvenciával. Ezt a módszert arra használják, hogy funkcionális vagy evolúciós összefüggéseket találjanak a szekvenciák között, és segíthet azonos géncsalád tagjainak azonosításában .
Ezt a programot Stephen Altschul, Warren Gish és David Lipman fejlesztette ki a Nemzeti Biotechnológiai Információs Központban (NCBI). Az 1990. októberi eredeti kiadványt, az " Alapvető helyi igazítás kereső eszközt " , több mint 90 000 alkalommal idézték, így a tudományos világ egyik leginkább idézettje.
A BLAST egy szekvencia-adatbázisban keresi azokat a szegmenseket, amelyek lokálisan homológak a felhasználó által biztosított lekérdezési szekvenciával . A BLAST hasonlósági mátrixot használ az igazítási pontszámok kiszámításához. Pontszámot ad minden megtalált összehangolásról , és ezt a pontszámot használja statisztikai értékelésként az összehangolás relevanciájáról (annak valószínűségére, hogy ez a véletlennek köszönhető).
A BLAST működési elve három szakaszra bontható:
Az elemzett szekvenciát először átfedő k- uplettekre vágjuk. Jellemzően aminosav négyeseket használnak egy fehérjeszekvenciához . A FATCATY-hoz hasonló szekvenciaszegmenseket például fel lehet osztani:
FATC, ATCA, TCAT, CATYEzeket a k- példányokat elemzik, hogy azonosítsák az összes lehetséges k-sorrendet, amelyek a felhasználó által beállított küszöbértéknél nagyobb igazítási pontszámot eredményeznek. Ennek az összehangolási pontszámnak a kiszámításához egy hasonlósági mátrixot ( M ( a , b )) használunk , gyakran a BLOSUM62-t ( a és b elemekkel összehasonlítva a két aminosavat). Például, ha a fent említett FATC négyzetet vesszük, akkor a pontszám, amelyet önmagához igazítva kapunk, 24, ha a BLOSUM62 mátrixot használjuk:
pontszám (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24
Néhány más négyes jó illesztési pontszámot ad a FATC-vel, például YATC, FASC vagy FSTC, amelyek 20-nál nagyobb igazítási pontszámot adnak:
pontszám (FATC, YATC) = 21; pontszám (FATC, FASC) = 20; pontszám (FATC, FSTC) = 21
Másrészt a többi négyes túlnyomó többsége nagyon rossz igazítási pontszámot ad, leggyakrabban negatív. Ha magas küszöböt állítunk be, például 18-at vagy 20-at a példánkban, akkor csak néhány lehetséges négyesünk lesz, amelyek ennél a küszöbnél nagyobb igazítási pontszámot adnak.
A BLAST tehát az elemzett szekvencia minden k- uplettje számára az összes lehetséges k- pár szótárát alkotja, amely a küszöbértéknél nagyobb pontszámot ad. A szótár a referencia-sorrendben azt a helyet is jelzi, ahol az eredeti k -uplet található . A létrehozás után ez a szótár tartalmazza az összes lehetséges k- pár felsorolását, amelyek lehetővé teszik a küszöbnél nagyobb kezdeti igazítási pontszám megszerzését.
Miután elkészült a referenciaszekvenciával rendelkező homológia küszöbértékű k- i összes szótára , a BLAST átvizsgálja az elemezni kívánt szekvenciák bankját, azáltal, hogy egymás után megnézi az egyes szekvenciákat alkotó összes k- iplettet. Minden alkalommal ellenőrzi, hogy a bank k- uplettje szerepel-e a szótárban. Ha nem része annak, akkor a következőre megy. Ha ez megtalálható a szótárban, ez azt jelenti, hogy a referencia szekvencia és az elemzett könyvtár szekvenciája között homológ régió embrió van. Ennek a homológiának minimális pontszáma megegyezik az első lépésben meghatározott küszöbértékkel.
A BLAST ezután megpróbálja megnézni, hogy ez a homológ régió meghaladja-e a kiinduló k- uplettet. Ezután megpróbálja kiterjeszteni a régiót felfelé és lefelé, hogy megnézze, nő-e a homológiai pontszám ezzel a kiterjesztési kísérlettel. Ha a két szekvencia valóban lokális homológiát mutat a kiinduló k -tuplet körül , akkor a kiterjesztés a pontszám hatékony növekedéséhez vezet, mert új aminosavak illeszkednek egymáshoz. Ha éppen ellenkezőleg, a kiterjesztési kísérlet nem teszi lehetővé a pontszám növelését, mert a homológia nem folytatódik, a BLAST leáll. Ha a meghosszabbítás utáni végső pontszám nagyobb, mint egy adott küszöb, akkor az igazítás megmarad a végső elemzéshez.
Ezt az eljárást az elemzett könyvtárban lévő szekvenciák összes k- uplettjére hajtjuk végre , amelyet egymás után szkennelünk.
A BLAST és annak származtatott változatai (lásd alább) arra szolgálnak, hogy a felhasználó által beírt szekvenciákra homológ szekvenciákat keressenek egy szekvencia adatbázisban. Ezek az adatbázisok, például a GenBank vagy az UniProt , nagyon nagyok, jellemzően több száz millió szekvenciát tartalmaznak. A BLAST teljes körű keresése általában több tucat igazítást eredményez az érdeklődési sorrendben. Ezután felteszik a kérdést ezen összehangolások biológiai relevanciájáról: vajon az összehangolás egyszerűen a véletlen eredménye, mert nagyon sok szekvenciát elemeztünk, vagy egy valódi biológiai megőrzés tükrözi?
Ehhez a keresés során a BLAST elemzi az érdeklődési sorrend és a könyvtár közötti igazítási pontszámok megoszlását. Ezt az eloszlást illeszti egy elméleti sűrűségfüggvényhez , amely lehetővé teszi, hogy kiszámolja annak valószínűségét és matematikai várakozását , hogy a bankban csak a véletlen miatt talál egy adott pontszámot adó igazítást. Ennek a sűrűségfüggvénynek a paraméterei a szekvencia és az elemzett könyvtár nukleotid- vagy aminosav-összetételének függvényében változnak.
Általában a BLAST minden igazításnál jelzi ennek a várakozásnak az értékét, az úgynevezett E-értéket . A biológiailag releváns nyomvonalakat, az E-értéket vesz infinitezimális értékeket (10 -10 10 -200 ), ami azt jelenti, hogy nagyon valószínűtlen, hogy a kapott összerendezés! Pontszám annak köszönhető, hogy esélye.
A robbanás kifejezés a bemeneti szekvencia jellegétől és a használt adatbázistól függően módosítható:
Létrehozása óta az algoritmus különböző verzióit fejlesztették ki: