A módszerek maximális takarékosság , vagy egyszerűbben módszerek parsimony vagy akár Wagner takarékosság , egy nagyon széles körben használt nem parametrikus statisztikai módszer , különösen a filogenetikai következtetés . Ez a módszer lehetővé teszi, hogy építeni a hierarchikus osztályozás fák után gyökereztető, amely lehetővé teszi, hogy szerezzen információkat a rokonsági struktúra egy sor ismétlésekkel. A maximális parsimónia feltételezése szerint a „preferált” filogenetikai fa az, amelyhez a legkevesebb evolúciós változás szükséges. Ezt a csoportosítási módszert alkalmazzák az ökológiában a tényleges vagy a fosszilis anyagokra , valamint a szinkológiában is .
A parsimónia olyan filogenetikai módszerek csoportjába tartozik, amelyek diszkrét karakterekből álló mátrixon alapulnak, amely lehetővé teszi egy vagy több optimális fa következtetését egy adathalmazra , egy adott taxon halmazára (hagyományosan fajok vagy reproduktívan elszigetelt populációk halmaza). , ugyanazon fajon belül). Ezeknek a módszereknek a célja a filogenetikai topológiák kikövetkeztetése, kifejezett optimalitási kritérium alapján . Minden fára kiszámítanak egy pontszámot , és a legjobb pontszámot tartalmazó fát vagy fákat választják ki az elemzésben szereplő taxonok közötti filogenetikai kapcsolatok legjobb, legegyszerűbb becslését nyújtó értékeként . A maximális parsimóniát alkalmazzák, vagy a legtöbb filogenetikai elemzésnél alkalmazható. Egészen a közelmúltig ez volt az egyetlen módszer a morfológiai adatok filogenetikai becslésére .
A filogenetikai becslés nem egyszerű probléma. A különböző topológiájú fák exponenciális számát kapjuk, ha növeljük az elemzésbe bevont taxonok számát. Például több mint hárommillió gyökér nélküli fa nyerhető tíz fajból (10 ! = 3 628 800). A parszimónia optimális kritériuma szerint, vagyis az evolúciós változások számának minimalizálásával igyekeznek keresni az adatokhoz legjobban illeszkedő fát vagy fákat . Maga az adat azonban nem követ egyszerű, számtani, evolúciós szabályt. A maximális parsimony módszer csak olyan topológia megszerzésére irányul, amely minimalizálja az evolúciós lépések számát egy adott adathalmaz esetében. Ideális esetben remélnünk kell, hogy ezek a tulajdonságok ( fenotípusos tulajdonságok , allélok stb.) Megfelelnek egy adott evolúciós mintának. Ebben az esetben azt mondhatnánk, hogy két organizmusnak vagy két adott taxonnak van-e közös jellege, és ezért ha kettő-kettő közelebb vannak egymáshoz, mint egy harmadik taxonhoz, amely nem rendelkezik ezzel a karakterrel (ha ez a karakter jelen van a közös ős, akkor szimpleziomorfizmusról beszélünk ).
Például a takarékosság kritérium azt mondhatjuk, hogy a denevérek és a majmok közelebb állnak törzsfejlődésileg beszélő halak , mivel mindkettő haj , szőr jellemzőit az osztály Emlősök (ez egy synapomorphy ). Nem mondható el azonban, hogy a denevérek és a majmok kettőtől kettőhöz szorosabban kapcsolódnának, mint a bálnák, mert e három csoport hipotetikus közös ősének is van szőrös jellege .
Az evolúciós konvergencia , a párhuzamos evolúció és az evolúciós fordulat jól ismert jelenségei - összefoglalóan homopláziáknak hívják - azonban a filogenetikai következtetések kényes problémáját jelentik. Számos okból kifolyólag egy tulajdonság valószínűleg nincs jelen a közös ősben: ha egy adott tulajdonság jelenlétét az evolúciós kapcsolat bizonyítékának vesszük, akkor helytelen fát rekonstruálunk. A tényleges filogenetikai adatok a homoplazia jelentős részét tartalmazzák, és az adatkészlet különböző partíciói gyakran meglehetősen eltérő topológiákat és ezért filogenetikai összefüggéseket sugallnak. Az alkalmazott módszerek filogenetikai következtetés kifejezetten hajlamosak megoldani ezeket a konfliktusokat a filogenetikai jel megtartása csak a filogenetikai fa ( ek ), amely globálisan illeszkednek ( fit ) a teljes egészében az adatok, elfogadva, hogy egyes elemei az adathalmaz nem illik. egész egyszerűen nem a kapcsolatokra, vagyis a következtetett filogenetikai topológiákra.
Azok az adatok, amelyek nem illeszkednek tökéletesen a kapott filogenetikai fához, tartalmazhatnak mást, mint a szó statisztikai értelmében vett egyszerű zajt . A bálnák előző példájában a haj hiánya homoplasztikus: ez visszatért az amnioták „ősi” állapotaihoz való visszatéréshez, amelyeknek nem volt hajuk. Ez a hasonlóság megoszlik az emlősökből álló amnióták ősével, és ütközik a fával, amelyet meg kell szereznünk (vagyis azzal, amely a cetféléket emlősök családjává teszi), mivel ennek az egyetlen kritériumnak az alapján evolúciós csoport, kivéve a cetféléket a szőrös emlősök csoportjából. A cetfélék között azonban ez a "szőrtelen" karakterre való visszatérés megoszlik a cetfélék különböző tagjai között (pl. Delfinek).
A „helyes” fa meghatározása és különösen az ilyen ellentmondó adatokkal összetett folyamat. A parsimony maximuma az egyik erre kifejlesztett módszer.
A maximális parsimony adatkészletek egy adott taxonkészlethez tartozó karakterek formájában vannak. Nincs általános egyetértés abban, hogy mi a filogenetikai tulajdonság, de a gyakorlatban egy tulajdonság lehet attribútum, olyan tengely, amelyben a megfigyelt taxonok változnak. Ezek az attribútumok lehetnek morfológiai, molekuláris / genetikai, fiziológiai, viselkedési stb. Az egyetlen konszenzus az örökölhető karakterek variációinak mérlegelése, mivel a cél az érintett operatív egységek közötti evolúciós minták következtetése. Az a kérdés, hogy ennek az örökölhetőségnek közvetlen ( például egy allél ) vagy közvetett (tanult viselkedés vagy kulturális) legyen-e, nincs konszenzusos és nem megoldott.
Minden karakter diszkrét kategóriákra vagy karakterállapotokra oszlik , amelyekbe a megfigyelt variációk kategorizálhatók. A karakterállapotok gyakran leírják a tulajdonság szempontjából figyelembe vett szubsztrátumot. Például a "szemszín" karakternek lehetnek kék, barna, fekete stb. A szóban forgó karaktereknek egy vagy több állapota lehet (csak együk lehet, de ebben a pontos esetben egyetlen variáció sem figyelhető meg, információ nem vonható ki belőle, és ezért általában kizárták az 'elemzésből').
A filogenetikai elemzés tulajdonságai nem egzakt tudományok, és gyakran többféle módon lehet kezelni ugyanazokat az adatsorokat. Például két taxon azonos állapotú lehet, ha rendkívül közel vannak egymáshoz, mint más taxonok egészéhez. Problémás olyan karakterállapotokat kódolni, amelyeknek az ilyen vagy olyan osztályhoz való hozzárendelése kétértelmű, sőt szubjektív (például az előző példában zöld szemek). Gyakran más kódolás, de a tanulmány összefüggésében megfelelő, egyértelműen megoldhatja ezt a problémát olyan karakterállapotoknál, mint a szem színe. Például a zöld szemek új kategóriába sorolhatók: világos szemek , ideértve a kék szemeket is; és létrehozunk egy új sötét szem kategóriát is , amely fekete , barna stb.
A morfológiai vagy folytonos adatok ilyenfajta kétértelműségei gyakran jelentenek vitát, zavarodottságot és hibát az adatkészlet feldolgozásában. Az ilyen jellegű hozzárendelés leküzdéséhez új karakterállapot határozható meg, jegyezzük meg "? ". Az algoritmus, amely az adatkészletet feldolgozza, nem veszi figyelembe ezt a karakterállapotot, és elkerülhető az esetleges hiba, de nem szisztematikus. A "?" megkapja azt az értéket, amely csökkenti a fa lépéseinek számát, amikor az elemzés során feldolgozásra kerül.
A molekuláris vagy genetikai adatok különösen alkalmasak filogenetikai elemzésre, maximális parszimónia révén. Valójában az államok egy karakter szekvencia nukleotid diszkrétek: 4 bázis és adott esetben egy 5 -én karakter állam: inszerciós / deléciós. Így a talált négy karakterállapot a 4 nukleotidbázis lesz, nevezetesen az adenin , a timin (vagy uracil egy RNS- szekvenciához ), a guanin és a citozin . Insertion deléciós figyelhető meg a szekvencia illesztés , ebben az esetben van kódolva egy 5 -én karakter állapotban, általában jelöljük „-.” Ezt a karakterállapotot nem szabad összekeverni a ? ami bizonytalanságot vagy hiányzó adatot, vagy eltérést stb. Itt az indel önmagában evolúciós adat, amely örökölhető, megosztható más származtatott fajokkal stb. Nincs egyetértés abban, hogy mennyire szigorúan kell kódolni az indeleket , azonban látjuk az egyes karakterek hozzárendelését ( a DNS vagy RNS szekvenciájának minden állása , egy állapot ritkán félreérthető).
A karakterállapotok kezelhetők rendeléssel vagy sem. Bináris karakter esetén típusú jelenlét vs. hiányában nincs különbség. Másrészt, ha valaki többállapotú karaktert vesz figyelembe, és ha van összefüggése az evolúciós lépések számát tekintve, akkor ezt kódolhatja. Például egy csoport növények, ha tudjuk, hogy a fehér → lila szekvenciája párta szükségszerűen halad át a rózsaszín karakter állam , akkor tudjuk levezetni érdemi filogenetikai jelet figyelembe véve a fehér → rózsaszín átmenet , mint a nem skálázható, mint a rózsaszín → lila átmenethez . A fehér → lila átmenet tehát evolúciós szempontból drágább lesz, és itt két lépésbe kerül. Egyes karakterek esetében nehéz tudni, hogy a legjobb-e megrendelni vagy sem, és hogyan kell megrendelni. Éppen ellenkezőleg, a folytonos változó (alak, méret, arányok) diszkretizálását képviselő karakterek esetében a lineáris rendezésnek van értelme, és a szimulációk kimutatták, hogy ez növeli a megfelelő kládok megtalálásának képességét, miközben csökken a kládok száma.
A maximális parsimony elemzéshez szükséges gépi idő (mint a többi módszer esetében is) arányos az elemzésben szereplő taxonok és karakterek számával. Tehát, mivel több taxon több ágat és topológiát igényel a becsléshez, nagyobb bizonytalanságra kell számítani a nagyszabású elemzések során. A taxonok mintavétele (és a fortiori szekvenálása ) költséges időben és pénzben is, a filogenetikai elemzések többsége csak a taxonok egy részét tartalmazza, amelyekből mintát lehetett volna venni.
Empirikus, elméleti és szimulációs vizsgálatok igazolták a szigorú és megfelelő mintavétel fő jelentőségét. Ezt a következő állításban foglalhatjuk össze: a filogenetikai mátrix dimenzióinak száma taxonok száma x karakterek száma . Megduplázza a taxonok számát, megduplázza a mátrixban jelen lévő információk mennyiségét, például megduplázza a karakterek számát. Minden taxon egy új mintát képvisel az egyes karakterekhez, de ami még ennél is fontosabb, a karakter állapotok új kombinációját képviseli . Ezek a tulajdonságok nemcsak azt határozhatják meg, hogy az új minta hol ágazik el a filogenetikai fán, hanem befolyásolhatják az elemzést mint egészet, és elmozdulásokat okozhatnak a korábban más taxonokon elért evolúciós kapcsolatokban, például a karakterváltozások becslési mintázatának megváltoztatásával. .
A maximális parszimóniában végzett elemzések legkézenfekvőbb gyengesége a hosszú ágak vonzása (lásd alább), ami különösen erős egy nem túl robusztus mintavétel esetén (a legszélsőségesebb eset egy 4 taxonból álló adathalmaz, minimum szerezzen egy értelmetlen gyökértelen fát). A hosszú ágak ilyen vonzereje a klasszikus eset, amikor további karakterek hozzáadása nem javítja a becslés minőségét. A taxonok hozzáadásakor a hosszú ágak "megtörnek", javítva a filogenetikai ágak mentén bekövetkező karakterállapotok változásának becslését. Más szavakkal, egyes esetekben több száz taxonnal lehet kielégítő filogenetikai következtetést levonni, csak néhány száz karakter felhasználásával.
Annak ellenére, hogy nagyszámú tanulmányt végeztek ebben a témában, a mintavételi stratégia területén még jelentős előrelépésekre van szükség. A számítási kapacitás növekedésével és a nagy adatkészlet megszerzésének és feldolgozásának költségeinek csökkenésével (időben és pénzben, a szekvenálási folyamatok automatizálásának köszönhetően ) több száz taxonnal és több ezer bázispárral (kB) foglalkozó tanulmányok készülnek. egyre gyakoribbá válik. Az empirikus megfigyelések megduplázzák a modellezésben / szimulációban elért haladást, a mintavételi és elemzési stratégiákat évről évre finomítják (nem csak a parsimónia maximális mértékére).
Lehetőség van arra is, hogy a különféle súlyokat a lehető legkíméletesebben alkalmazzuk az egyes tulajdonságokra. Hagyományosan ezeket a súlyokat egy egységes „evolúciós költséghez” viszonyítva alkalmazzák. Bizonyos karaktereket tehát a taxonok közötti „valódi” evolúciós viszonyok jobb tükröződésének tekintenek, ezért 2 vagy annál többel súlyozzák őket . Ezeknek a karaktereknek a változása a pontszám kiszámításakor egy helyett 2-nek számít (lásd fent). A karakterek súlyozása sok vita forrása volt. A leggyakrabban megfigyelt eset az összes karakter azonos súlyozása, bár a kivételek gyakoriak. Például a kodon harmadik helyzete köztudottan különösen labilis ( a genetikai kód fontos szinonimája miatt , ami ezt a pozíciót illeti), és emiatt alulsúlyos lehet (e 3. pozíció potenciálisan erős homoplazia miatt). . Bizonyos esetekben, bár körkörös érvelést láthatunk, az elemzéseket úgy lehet elvégezni, hogy a karaktereket átsúlyozzuk az első elemzés során tapasztalt homoplazia-fokoknak megfelelően.
A karakterváltozások egyenként is súlyozhatók. Ez gyakran vonatkozik a nukleotidszekvencia adatokra. Empirikusan bebizonyosodott, hogy az alapváltozások egyes előfordulásai gyakoribbak, mint mások. Ez a valóság megalapozza a bázisok biokémiai természetét és a mutagénekre adott reakcióit , legyenek azok transzkripciós, fizikai vagy kémiai. Ismert például, hogy a purin és a pirimidin közötti átmenetek gyakoribbak, mint az átalakulások, vagyis a bázisok megváltozása a kémiai család megváltozásával együtt.
Előnyök:
Hátrányok: