Anomáliák észlelése
Az adatbányászatban az anomáliák felderítése (angolul: anomáliák felderítése vagy outlier detektálás ) azon elemek, események vagy néhány megfigyelés azonosítása, amelyek gyanút keltenek, és jelentősen eltérnek a többség többi adattól.
Általában az anomáliák olyan problémát jeleznek, mint a banki csalás , strukturális hiba, orvosi probléma vagy a szöveg hibája. Az anomáliákat kiugró értékeknek, zajoknak, eltéréseknek vagy kivételeknek is nevezik.
A behatolás észlelésével egy számítógépes hálózaton az érdekes tárgyak gyakran nem ritka objektumok, hanem váratlan tevékenységcsúcsok. Ez a modell nem tartja be az anomália, mint ritka objektum definícióját, és sok anomália detektálási módszer (különösen a felügyelet nélküli módszerek) nem képes azonosítani ezeket a rendellenességeket, hacsak a rendellenességeket nem sikerült azonosítani. Ilyen helyzetekben egy adatpartíciós elemzési algoritmus képes lehet észlelni ezeket a problémákat.
Az anomáliák detektálási technikáinak három fő kategóriája van:
- a felügyelet nélküli rendellenesség-felderítési technikák anomáliákat észlelnek egy címkézetlen adathalmazban, feltételezve, hogy az adatsor példányainak többsége normális, és olyan példányokat keres, amelyek nem egyeznek a többi adattal;
- a felügyelt anomáliák detektálási technikái olyan adatkészletet igényelnek, ahol az adatokat normálnak vagy rendellenesnek címkézik, és egy osztályozó képzésével jár (a fő különbség sok más statisztikai osztályozási kérdéshez képest a kiugró értékek észlelésének kiegyensúlyozatlansága);
- A félig felügyelt anomáliák detektálási technikái egy normál adatkészlet normál viselkedését reprezentáló modellt építenek, majd tesztelik annak valószínűségét, hogy egy tesztpéldány kompatibilis-e a modellel.
Alkalmazások
A rendellenességek észlelése különféle területeken alkalmazható, például behatolás- észlelés, csalásérzékelés , hibadetektálás, rendszerállapot-figyelés, eseményérzékelés az érzékelő hálózatokban és az ökoszisztéma zavarainak észlelése .
A rendellenességek észlelését gyakran használják az adatok előfeldolgozásában is, hogy eltávolítsák a rendellenes adatokat egy adatkészletből. A felügyelt tanulás során az anomális adatok eltávolítása az adatkészletből gyakran a tanulási pontosság statisztikailag szignifikáns növekedését eredményezi.
Népszerű technikák
Az anomáliák kimutatására számos technikát javasoltak az irodalomban. Néhány népszerű technika:
A különböző módszerek teljesítménye nagymértékben függ az adatkészlettől és a paraméterektől, és a módszereknek kevés szisztematikus előnyük van másokkal szemben, ha több adatkészletet és paramétert hasonlítanak össze.
Alkalmazás az adatbiztonsághoz
Az anomáliák detektálását Dorothy Denning (in) javasolta 1986-ban a behatolás-észlelő rendszerek számára . A behatolás-észlelő rendszerek anomália-észlelését általában küszöbértékekkel és statisztikákkal végzik, de a puha számítással és a tanulási indukcióval (angol induktív tanulás ) is el lehet érni .
Szoftver
Az ELKI (en) egy Java szoftver nyílt forráskódú adatbányászathoz , amely több észlelési algoritmus anomáliát tartalmaz.
Hivatkozások
(fr) Ez a cikk részben vagy egészben az
angol Wikipedia
" Anomaly Detection " című cikkéből származik
( lásd a szerzők felsorolását ) .
-
Arthur Zimek és Erich Schubert , kiugró értékek megállapítása , Springer New York,2017, 1–5 p. ( ISBN 978-1-4899-7993-3 , DOI 10.1007 / 978-1-4899-7993-3_80719-1 )
-
VJ Hodge és J. Austin , „ A felmérés a kiugró észlelési módszerekről ”, Mesterséges intelligencia áttekintés , 1. évf. 22, n o 22004, P. 85–126 ( DOI 10.1007 / s10462-004-4304-y , online olvasás )
-
Paul Dokas , Levent Ertoz , Vipin Kumar , Aleksandar Lazarevic , Jaideep Srivastava és Pang-Ning Tan , „ Adatbányászat a hálózati behatolás észleléséhez ”, Proceedings NSF Workshop on Next Generation Data Mining ,2002( online olvasás )
-
V. Chandola , A. Banerjee és V. Kumar , „ Anomália felismerés: A felmérés ”, ACM Computing Surveys , vol. 41, n o 3,2009, P. 1–58 ( DOI 10.1145 / 1541880.1541882 )
-
Ivan Tomek , „ Kísérlet a legközelebbi szomszéd szerkesztett szabályával ”, IEEE tranzakciók a rendszerekről, az emberről és a kibernetikáról , vol. 6, n o 6,1976, P. 448–452 ( DOI 10.1109 / TSMC.1976.4309523 )
-
MR Smith és T. Martinez , a 2011-es Nemzetközi közös konferenciája a neurális hálózatok ,2011, 2690 p. ( ISBN 978-1-4244-9635-8 , DOI 10.1109 / IJCNN.2011.6033571 , online olvasás ) , "A besorolási pontosság javítása a tévesen osztályozandó példányok azonosításával és eltávolításával"
-
Arthur Zimek és Peter Filzmoser , „ Oda és vissza: A statisztikai okfejtés és az adatbányászati algoritmusok kimutatása ”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery , vol. 8, n o 6,2018, e1280 ( ISSN 1942-4787 , DOI 10.1002 / widm.1280 )
-
EM Knorr , RT Ng és V. Tucakov , „ Távolságalapú kiugrások: algoritmusok és alkalmazások ”, The VLDB Journal the International Journal on Very Large Data Bases , vol. 8, n csont 3-4,2000, P. 237–253 ( DOI 10.1007 / s007780050006 )
-
S. Ramaswamy, R. Rastogi és K. Shim (2000) „Hatékony algoritmusok a nagy adatállományokból származó outlinerek bányászatához” , a 2000. évi ACM SIGMOD nemzetközi adatkezelés-konferencia anyagában - SIGMOD '00 : 427 p. ( DOI : 10.1145 / 342009.335437 ).
-
F. Angiulli és C. Pizzuti (2002) „Gyors Kívülálló érzékelés magas dimenziós terek” a Principles of Data Mining and Knowledge Discovery 2431 : 15 p. ( DOI : 10.1007 / 3-540-45681-3_2 ).
-
MM Breunig, H.-P. Kriegel , RT Ng és J. Sander (2000) „ LOF: A sűrűségen alapuló helyi outlierek azonosítása ”: 93–104 p. ( DOI : 10.1145 / 335191.335388 ).
-
(a) Fei Tony Liu Kai Ming Ting és Zhi-Hua Zhou , Szigetelés Forest ,2008. december, 413–422 . ( ISBN 978-0-7695-3502-9 , DOI 10.1109 / ICDM.2008.17 , online olvasás )
-
E. Schubert , A. Zimek és H. -P. Kriegel , „ Átgondolt lokális outlier-észlelés: általános nézet a lokalitásról a térbeli, video- és hálózati outlier-észlelés alkalmazásával ”, Data Mining and Knowledge Discovery , vol. 28,2012, P. 190–237 ( DOI 10.1007 / s10618-012-0300-z )
-
HP Kriegel , P. Kröger, E. Schubert és A. Zimek (2009) „Outlier Detection in Axis-Parallel Subspaces of High Dimensionional Data” in Advances in Knowledge Discovery and Data Mining 5476 : 831 p. ( DOI : 10.1007 / 978-3-642-01307-2_86 ).
-
HP Kriegel , P. Kroger, E. Schubert és A. Zimek (2012) „Külső észlelés önkényesen orientált altereken” 2012-ben az IEEE 12. nemzetközi adatbányászati konferenciája : 379 p. ( DOI : 10.1109 / ICDM.2012.21 ).
-
H. Fanaee-T és J. Gama , „ Tensor-alapú anomália-felderítés: interdiszciplináris felmérés ”, Knowledge-Based Systems , vol. 98,2016, P. 130–147 ( DOI 10.1016 / j.knosys.2016.01.027 )
-
A. Zimek , E. Schubert és H.-P. Kriegel , „ Felmérés a felügyelet nélküli outlier detektálásról nagydimenziós numerikus adatokban ”, Statisztikai elemzés és adatbányászat , vol. 5, N o 5,2012, P. 363-387 ( DOI 10.1002 / szat. 1161 )
-
B. Schölkopf , JC Platt , J. Shawe-Taylor , AJ Smola és RC Williamson , „ A nagy dimenziós eloszlás támogatásának becslése ”, Neural Computation , vol. 13, n o 7,2001, P. 1443–71 ( PMID 11440593 , DOI 10.1162 / 089976601750264965 )
-
Simon Hawkins , Hongxing He , Graham Williams és Rohan Baxter , Adattárház és tudásfeltárás , vol. 2454, coll. "Előadási jegyzetek a számítástechnikában",2002, 337 p. ( ISBN 978-3-540-44123-6 , DOI 10.1007 / 3-540-46145-0_17 , online olvasás ) , "Outlier Detection Replicator Neural Networks használatával"
-
Z. He , X. Xu és S. Deng , „ Fürtalapú helyi outlierek felfedezése ”, Pattern Recognition Letters , vol. 24. Nem csontok 9-10,2003, P. 1641–1650 ( DOI 10.1016 / S0167-8655 (03) 00003–5 )
-
RJGB Campello , D. Moulavi , A. Zimek és J. Sander , „ Hierarchikus sűrűség-becslések az adatcsoportosításhoz, a vizualizációhoz és a kimutatáshoz ”, ACM Transactions on Knowledge Discovery from Data , vol. 10, n o 1,2015, P. 5: 1–51 ( DOI 10.1145 / 2733381 )
-
A. Lazarevic és V. Kumar , Featuring bagging a túlzott észlelés érdekében ,2005, 157–166 p. ( ISBN 978-1-59593-135-1 , DOI 10.1145 / 1081870.1081891 )
-
HV Nguyen, HH Ang és V. Gopalkrishnan (2010) „Bányászati kiugrások heterogén detektorok együttesével véletlenszerű altereken” in Advanced Systems Database Systems 5981 : 368 p. ( DOI : 10.1007 / 978-3-642-12026-8_29 ).
-
HP Kriegel , P. Kröger, E. Schubert és A. Zimek (2011) „A szélsőértékek értelmezése és egységesítése” a 2011. évi SIAM nemzetközi adatbányászati konferencia anyagában: 13–24 p. ( DOI : 10.1137 / 1.9781611972818.2 ).
-
E. Schubert, R. Wojdanowski, A. Zimek és HP Kriegel (2012) „Az outlier rangsorok és outlier pontszámok értékeléséről” a 2012. évi SIAM nemzetközi adatbányászati konferencia anyagában: 1047–1058 p. ( DOI : 10.1137 / 1.9781611972825.90 ).
-
A. Zimek , RJGB Campello és JR Sander , " Együttesek a felügyelet nélküli kimutatásért ", ACM SIGKDD Explorations Newsletter , Vol. 15,2014, P. 11–22 ( DOI 10.1145 / 2594473.2594476 )
-
A. Zimek , RJGB Campello és JR Sander (2014) „Data perturbation for outlier detection sets” , a 26. Nemzetközi Tudományos és Statisztikai Adatbáziskezelés Konferencia - SSDBM '14 : 1 p. ( DOI : 10.1145 / 2618243.2618257 ).
-
Guilherme O. Campos , Arthur Zimek , Jörg Sander , Ricardo JGB Campello , Barbora Micenková , Erich Schubert , Ira hozzájárulás és Michael E. Houle , „ az értékelés ellenőrizetlen kiugró értékek megállapítása: intézkedések, adatkészletek és empirikus tanulmány ”, adatok Bányászat és tudásfeltárás , vol. 30, n o 4,2016, P. 891 ( ISSN 1384-5810 , DOI 10.1007 / s10618-015-0444-8 )
-
anomáliák érzékelésére benchmark adattárat a Ludwig-Maximilian Universität München ; Tükör a São Paulo Egyetemen .
-
DE Denning , „ Behatolás-detektáló modell ”, IEEE tranzakciók a szoftverfejlesztésről , vol. SE-13, n o 21987, P. 222–232 ( DOI 10.1109 / TSE.1987.232894 , online olvasás )
-
HS Teng , K. Chen és SC Lu , adaptív valós idejű anomália detektálás induktívan generált szekvenciális minták felhasználásával ,1990, 401 p. ( ISBN 978-0-8186-2060-7 , DOI 10.1109 / RISP.1990.63857 , online olvasás )