Alapvető Helyi igazítás kereső eszköz

ROBBANÁS

Információ

Fejlesztette	Altschul SF, Gish W., Miller EW, Lipman DJ, NCBI
Utolsó verzió	2.9.0+ (1 st április 2019)
Beírva	C és C ++
Operációs rendszer	Írja be a Unix , a Linux , a macOS és a Microsoft Windows parancsot
Környezet	Cross-platform
Olvassa el a formátumokat	XML BLAST kimenet ( d )
Írásos formátumok	XML BLAST kimenet ( d )
típus	Bioinformatikai eszköz
Engedély	Közösségi terület
Weboldal	blast.ncbi.nlm.nih.gov

A BLAST (rövidítés az alapvető helyi igazítás kereső eszközhöz ) egy heurisztikus keresési módszer, amelyet a bioinformatikában használnak . Ez lehetővé teszi a hasonló régiók megkeresését a nukleotidok vagy aminosavak két vagy több szekvenciája között , és lehetővé teszi a homológ régiók összehangolását .

A felhasználó által beírt szekvencia alapján a BLAST lehetővé teszi az adatbázisok gyors megtalálását, a felsorolt szekvenciák hasonló területekkel rendelkeznek a bemeneti szekvenciával. Ezt a módszert arra használják, hogy funkcionális vagy evolúciós összefüggéseket találjanak a szekvenciák között, és segíthet azonos géncsalád tagjainak azonosításában .

Történelmi

Ezt a programot Stephen Altschul, Warren Gish és David Lipman fejlesztette ki a Nemzeti Biotechnológiai Információs Központban (NCBI). Az 1990. októberi eredeti kiadványt, az " Alapvető helyi igazítás kereső eszközt " , több mint 90 000 alkalommal idézték, így a tudományos világ egyik leginkább idézettje.

Elv

A BLAST egy szekvencia-adatbázisban keresi azokat a szegmenseket, amelyek lokálisan homológak a felhasználó által biztosított lekérdezési szekvenciával . A BLAST hasonlósági mátrixot használ az igazítási pontszámok kiszámításához. Pontszámot ad minden megtalált összehangolásról , és ezt a pontszámot használja statisztikai értékelésként az összehangolás relevanciájáról (annak valószínűségére, hogy ez a véletlennek köszönhető).

A BLAST működési elve három szakaszra bontható:

a vizsgálati szekvenciát átfedő k hosszúságú szegmensekre bontjuk ( k- uplettek), és mindegyikük után megkeressük az összes lehetséges k- példányt, amelyek homológiája magasabb, mint egy adott küszöb. A BLAST tehát az összes k- szótár, amely minimális helyi homológiát ad;
az így alkotott szótárral átkutatva a bankot. Valahányszor a BLAST azonosít egyezést a könyvtárban, megpróbálja kiterjeszteni a homológiát az eredetileg talált k- uplettől felfelé és lefelé ;
a homológia kiterjesztése után a kapott pontszám alapján értékeli annak valószínűségét, hogy ez véletlen (vagy pontosabban annak matematikai várakozása ) következménye.

A k -uplet szótár létrehozása

Az elemzett szekvenciát először átfedő k- uplettekre vágjuk. Jellemzően aminosav négyeseket használnak egy fehérjeszekvenciához . A FATCATY-hoz hasonló szekvenciaszegmenseket például fel lehet osztani:

FATC, ATCA, TCAT, CATY

Ezeket a k- példányokat elemzik, hogy azonosítsák az összes lehetséges k-sorrendet, amelyek a felhasználó által beállított küszöbértéknél nagyobb igazítási pontszámot eredményeznek. Ennek az összehangolási pontszámnak a kiszámításához egy hasonlósági mátrixot ( M ( a , b )) használunk , gyakran a BLOSUM62-t ( a és b elemekkel összehasonlítva a két aminosavat). Például, ha a fent említett FATC négyzetet vesszük, akkor a pontszám, amelyet önmagához igazítva kapunk, 24, ha a BLOSUM62 mátrixot használjuk:

pontszám (FATC, FATC) = M (F, F) + M (A, A) + M (T, T) + M (C, C) = 6 + 4 + 5 + 9 = 24

Néhány más négyes jó illesztési pontszámot ad a FATC-vel, például YATC, FASC vagy FSTC, amelyek 20-nál nagyobb igazítási pontszámot adnak:

pontszám (FATC, YATC) = 21; pontszám (FATC, FASC) = 20; pontszám (FATC, FSTC) = 21

Másrészt a többi négyes túlnyomó többsége nagyon rossz igazítási pontszámot ad, leggyakrabban negatív. Ha magas küszöböt állítunk be, például 18-at vagy 20-at a példánkban, akkor csak néhány lehetséges négyesünk lesz, amelyek ennél a küszöbnél nagyobb igazítási pontszámot adnak.

A BLAST tehát az elemzett szekvencia minden k- uplettje számára az összes lehetséges k- pár szótárát alkotja, amely a küszöbértéknél nagyobb pontszámot ad. A szótár a referencia-sorrendben azt a helyet is jelzi, ahol az eredeti k -uplet található . A létrehozás után ez a szótár tartalmazza az összes lehetséges k- pár felsorolását, amelyek lehetővé teszik a küszöbnél nagyobb kezdeti igazítási pontszám megszerzését.

A homológia keresése és kiterjesztése

Miután elkészült a referenciaszekvenciával rendelkező homológia küszöbértékű k- i összes szótára , a BLAST átvizsgálja az elemezni kívánt szekvenciák bankját, azáltal, hogy egymás után megnézi az egyes szekvenciákat alkotó összes k- iplettet. Minden alkalommal ellenőrzi, hogy a bank k- uplettje szerepel-e a szótárban. Ha nem része annak, akkor a következőre megy. Ha ez megtalálható a szótárban, ez azt jelenti, hogy a referencia szekvencia és az elemzett könyvtár szekvenciája között homológ régió embrió van. Ennek a homológiának minimális pontszáma megegyezik az első lépésben meghatározott küszöbértékkel.

A BLAST ezután megpróbálja megnézni, hogy ez a homológ régió meghaladja-e a kiinduló k- uplettet. Ezután megpróbálja kiterjeszteni a régiót felfelé és lefelé, hogy megnézze, nő-e a homológiai pontszám ezzel a kiterjesztési kísérlettel. Ha a két szekvencia valóban lokális homológiát mutat a kiinduló k -tuplet körül , akkor a kiterjesztés a pontszám hatékony növekedéséhez vezet, mert új aminosavak illeszkednek egymáshoz. Ha éppen ellenkezőleg, a kiterjesztési kísérlet nem teszi lehetővé a pontszám növelését, mert a homológia nem folytatódik, a BLAST leáll. Ha a meghosszabbítás utáni végső pontszám nagyobb, mint egy adott küszöb, akkor az igazítás megmarad a végső elemzéshez.

Ezt az eljárást az elemzett könyvtárban lévő szekvenciák összes k- uplettjére hajtjuk végre , amelyet egymás után szkennelünk.

Pontszámelemzés és relevanciaértékelés

A BLAST és annak származtatott változatai (lásd alább) arra szolgálnak, hogy a felhasználó által beírt szekvenciákra homológ szekvenciákat keressenek egy szekvencia adatbázisban. Ezek az adatbázisok, például a GenBank vagy az UniProt , nagyon nagyok, jellemzően több száz millió szekvenciát tartalmaznak. A BLAST teljes körű keresése általában több tucat igazítást eredményez az érdeklődési sorrendben. Ezután felteszik a kérdést ezen összehangolások biológiai relevanciájáról: vajon az összehangolás egyszerűen a véletlen eredménye, mert nagyon sok szekvenciát elemeztünk, vagy egy valódi biológiai megőrzés tükrözi?

Ehhez a keresés során a BLAST elemzi az érdeklődési sorrend és a könyvtár közötti igazítási pontszámok megoszlását. Ezt az eloszlást illeszti egy elméleti sűrűségfüggvényhez , amely lehetővé teszi, hogy kiszámolja annak valószínűségét és matematikai várakozását , hogy a bankban csak a véletlen miatt talál egy adott pontszámot adó igazítást. Ennek a sűrűségfüggvénynek a paraméterei a szekvencia és az elemzett könyvtár nukleotid- vagy aminosav-összetételének függvényében változnak.

Általában a BLAST minden igazításnál jelzi ennek a várakozásnak az értékét, az úgynevezett E-értéket . A biológiailag releváns nyomvonalakat, az E-értéket vesz infinitezimális értékeket (10 -10 10 -200 ), ami azt jelenti, hogy nagyon valószínűtlen, hogy a kapott összerendezés! Pontszám annak köszönhető, hogy esélye.

Változatok

Felhasznált adatok

A robbanás kifejezés a bemeneti szekvencia jellegétől és a használt adatbázistól függően módosítható:

blastn, nukleotid, nukleotid szekvencia a nukleotid szekvenciák adatbázisához képest;
blastp, fehérje, fehérje szekvencia egy fehérje szekvencia adatbázissal;
blastx, nukleotidszekvencia fehérjeszekvenciává transzlálva a fehérjeszekvenciák adatbázisa alapján;
tblastn, fehérjeszekvencia fehérjeszekvenciákká transzlált nukleotidszekvenciák adatbázisával szemben;
tblastx, nukleotidszekvencia fehérjeszekvenciává transzlálva fehérjeszekvenciákká transzlált nukleotidszekvenciák adatbázisával szemben.

Algoritmus

Létrehozása óta az algoritmus különböző verzióit fejlesztették ki:

BlastN, nukleotidszekvencia robban, lassú, de lehetővé teszi a szekvenciák csak egy részén lokalizált hasonlóságok megtalálását;
BlastP, fehérje szekvencia robbanás;
A Megablast gyors, lehetővé teszi, hogy nagyon hasonló szekvenciákat találjon;
PSI-Blast ( pozíció-specifikus iterált BLAST ), a Blast iterációnként többször újraindult . Minden iterációnál konszenzus szekvenciát határozunk meg az eredményekből, és felhasználjuk a következő iteráció forrásszekvenciájaként;
PHI-BLAST (a mintaütés által kezdeményezett Blast ), egy program, fehérjeszekvenciát és mintát használva forrásként , az utóbbit használva kiindulópontként az adatbázisokban található szekvenciákkal való hasonlóság keresésére.

Megjegyzések és hivatkozások

Greg Gibson, Spencer V. Muse, Lionel Domenjoud, Raymond Cunin ( trad. Lionel Domenjoud), Précis de genomique , Bruxelles / Párizs, De Boeck Egyetem, 2004, 347 p. ( ISBN 2-8041-4334-1 ) , "2"
(in) SF Altschul , W Gish W Miller , EW Myers és DJ Lipman , " Basic Local Alignment Search Tool " , Journal of Molecular Biology , vol. 215, n o 3, 1990. október 5, P. 403–10 ( PMID 2231712 , összefoglaló )
20000 alkalommal
Frédéric Dardel és François Képès , Bioinformatika. Genomika és posztgenomika , Palaiseau, Éditions de l'École Polytechnique,2002, 246 p. ( ISBN 2-7302-0927-1 , online előadás )

Lásd is

Kapcsolódó cikkek

Külső linkek

(en) Hivatalos oldal
(en) " mpiBLAST Demo " ( Archívum • Wikiwix • Archive.is • Google • Mit kell tenni? ) - mpiBLAST párhuzamos verzió