A hibatűrés (vagy "érzéketlenségi hiba") olyan tervezési módszerre utal, amely lehetővé teszi a rendszer működésének folytatását, esetleg csökkentett módon (azt is mondjuk, hogy " lebomlott üzemmódban "), ahelyett, hogy teljesen lebukna, amikor az egyik Az alkatrészek már nem működnek megfelelően.
A kifejezést általában a vizsgált számítógépes rendszereknél használják , hogy részleges meghibásodás esetén többé-kevésbé működőképesek maradjanak, vagyis valószínűleg csökkenjen az áteresztőképesség vagy növekedjen a válaszidő. Más szavakkal, a rendszer nem áll le, függetlenül attól, hogy van-e hardverhiba vagy szoftverhiba.
Az informatikán kívüli példa egy gépjármű, amelyet úgy terveztek, hogy mindig forgalomképes legyen, még akkor is, ha az egyik gumiabroncsa üres.
Egyetlen gép sem az elektronika és az informatika területén 100% -osan megbízható, és nem is elpusztíthatatlan. A gyártó, vagy egy független tesztlaboratórium a többé-kevésbé nehéz igénybevételt mutató vizsgálatok után meghatározza a gép hibatűrési kritériumát .
Ezt a kritériumot vagy a meghibásodások közötti órák átlagos számában (angolul MTBF , vagy a meghibásodások közötti átlagos időtartamban ), vagy a gép élettartama vége előtti üzemórák számában fejezik ki . Egy másik paraméter általában társul hozzá, az MTTR ( átlagos javítási idő ), a javításig eltelt átlagos idő . A kettő kombinációja meghatározza a kiszámítható rendelkezésre állási arányt .
A rendelkezésre állás megfelel .
A rendszerek elérhetőség szerinti besorolása általában 7 osztályba vezet, a nem figyelembe vett osztálytól (a rendszer az idő 90% -ában elérhető, és ezért évente egy hónapnál hosszabb ideig nem áll rendelkezésre) a rendkívül elérhető osztályig (elérhető 99,99999) Az idő% -a, ezért évente csak 3 másodpercig nem érhető el): ezek a különböző osztályok a 9 számának felelnek meg annak az időnek a százalékában, amely alatt az osztály rendszerei rendelkezésre állnak.
típus | Elérhetetlenség (perc percben) | Százalékos rendelkezésre állás | Osztály |
---|---|---|---|
nem kezelik | 50 000 (34 nap, 17 óra és 20 perc) | 90% | 1 |
sikerült | 5000 (3 nap, 11 óra és 20 perc) | 99% | 2 |
jól sikerült | 500 (8 óra 20 perc) | 99,9% | 3 |
hibás tolerancia | 50 (alig egy óra) | 99,99% | 4 |
magas rendelkezésre állás | 5 perc | 99,999% | 5. |
nagyon magas rendelkezésre állás | 0,5 (30 másodperc) | 99,9999% | 6. |
nagyon magas rendelkezésre állás | 0,05 (3 másodperc) | 99,99999% | 7 |
Megjegyzés : Egy év 8760 óra, vagyis 525 600 perc.
A hibatűrő rendszer előnyei nyilvánvalóak, de mi van a hátrányokkal?
Általános szabály, hogy nem egy olyan rendszer megtervezéséről van szó, amelyben minden alkatrész érzéketlen a hibákra. Annak megállapításához, hogy melyik alkotóelemnek kell hibatűrőnek lennie, felteheti a következő kérdéseket:
Az összes teszten áteső alkatrészre példa az utasok immobilizációs rendszere.
Általában nem az elsődleges utas-immobilizáló rendszerre gondolunk, ami a gravitáció. Ha az autó több g- nál elgurul , vagy erősen fékezik, előfordulhat , hogy ez az elsődleges rögzítési módszer nem működik. Az utasok mozgáskorlátozása egy ilyen baleset során létfontosságú a biztonságuk szempontjából, ezért válaszolunk az első tesztre.
A biztonsági övek megjelenése előtt mindennaposak voltak az utasok kilökését okozó ütközések, ezért a második teszt megválaszolható.
Egy redundáns utasblokkoló rendszer, mint például a biztonsági övek, olcsó, nagyon kis tömegű és tömeges, ezért a harmadik teszt megválaszolható.
Emiatt a biztonsági övek hozzáadása minden autóhoz remek ötlet. A további immobilizációs rendszerek, mint például az utas légzsák (angol nyelvű légzsák ) drágábbak, és alacsonyabb különbséggel teljesítik ezt a tesztet. Ez az oka annak, hogy az olcsó autók nem rendelkeznek annyival, mint mások.
A hardver hibatűrése néha megkövetelheti a meghibásodott alkatrészek eltávolítását, majd új alkatrészekkel történő cseréjét, amíg a rendszer működik. Egy ilyen redundáns rendszerről azt mondják, hogy „ egy pont toleráns”, és a hibatűrő rendszerek túlnyomó részét képviseli. Az ilyen rendszerekben a hibák közötti átlagos hibaaránynak elég magasnak kell lennie ahhoz, hogy az adminisztrátoroknak legyen ideje a régit kijavítani, mielőtt a biztonsági másolat meghibásodna. Minél hosszabb az idő a hibák között, annál könnyebb, de a hibatűrő rendszerben nem elengedhetetlen.
A hibaérzékenység különösen jól működik a számítógépes rendszerekben. Így a Tandem Computers vállalat "egyszerű tolerancia" gépeket használ a NonStop rendszereinek létrehozásához , amelyek üzemidejét (az utolsó indítás óta eltelt idő) (angol nyelvű üzemidő ) évtizedekben mérik. A Netflix cég a maga részéről felállította a Chaos Monkey programot, amely véletlenszerűen választ szervert és semlegesíti azt a szokásos tevékenységi órák alatt, hogy folyamatosan tesztelje rendszerének rugalmasságát.
Különbség van a hibatűrő rendszerek és a ritkán meghibásodott rendszerek között. Például a Western Electric keresztlengőkapcsolóinak meghibásodási aránya negyven év alatt két óra volt, ezért nagyon ellenállóak voltak a meghibásodásokkal szemben. Mivel azonban kudarckor még mindig megálltak, ezért nem voltak teljesen mentesek a kudarctól.
A működés megbízhatósága (angolul megbízhatóság ) az a képesség, hogy támaszkodhatunk a nyújtott szolgáltatásokra. Ez a felhasznált alkatrészek működési megbízhatóságától függ.
A figyelembe veendő hibák eredete változhat:
Az előző körülmények által okozott belső hiba mindaddig belső marad, amíg annak nincsenek következményei a rendszer külső működésére. Ez a hiba sokáig belső maradhat (hiba késleltetése), de rövid vagy hosszú távon egy hiba vagy meghibásodás miatt külső hibaállapothoz vezet.
A külső hiba állapota meghibásodásban, a nyújtott szolgáltatás szintjén bekövetkező meghibásodásban nyilvánul meg. A rendszer nem működik, ha a fenti jelenségek bármelyikének eredményeként nem felel meg egyik előírásának sem. Általában csak a külső hibaállapotok láthatók: hogyan lehet észrevenni a hibához vezető problémát?
Elkerülése bontások (angolul hiba elkerülésére ) halmaza eszköz, upstream, hogy elkerüljék a rendszer meghibásodik. Ez különösen a következőket foglalja magában: