A térbeli adatbányászat ( térbeli adatbányászat ) a földrajzi adatok technikai feltárása, a földi skálánk, de a csillagászat is , amelynek célja a szöveges adatokban érdekes szabályszerűségek felfedezése , diakronikus vagy geometriai, mint vektorok , keretek, grafikonok. A téradatok különböző léptékű információkat nyújtanak, különböző technikákkal, különböző formátumokban, gyakran hosszú idő alatt a változások megfigyelésére. A mennyiség tehát nagyon nagy, az adatok tökéletlenek és zajosak lehetnek. Ezenkívül a téradatok közötti kapcsolatok gyakran implicitek: halmaz-, topológiai, irány- és metrikus kapcsolatokkal gyakran találkozunk az adatok feltárásának ezen szakterületén . A térbeli adatbányászat ezért különösen nehéz.
A térinformatikai rendszerek térbeli elemzése részt vesz a feltáró téradat-elemzésben, de célja a térbeli modellezés.
Térbeli adatbányászat használják, hogy vizsgálja meg a földtudomány adatok bűnözésföldrajz adatok népszámlálási adatok , a közúti forgalom , a rák kitörése , stb
A térbeli adatbányászat története összekapcsolódik a földrajz, a csillagászat és a matematika történetével, valamint e tudományterületek fejlődésével.
Történelmileg az adatbányászat elsősorban fizikai és leíró jellegű volt. A feltérképezés az utóbbi motorok egyike volt. Kínában, bárhol V -én és IV th évszázadok ie. J. - C. , az első térképek a domborzat elemeit és a gazdasági elemeket mutatják be azzal, hogy megpróbálják osztályozni őket. Ptolemaiosz idejében befejeződött a domborzati formák osztályozása. Az Európában megjelent a végén a IX -én században a portolans ahol SEO és osztályozása keserű volt szükség.
Talán 1855-ben jelent meg az első prediktív földrajzi adatbányászat. Abban az évben John Snow megvizsgálta az 1854 végi kolera járvány okait Londonban, és egy innovatív hipotézissel, valamint a betegség gócainak pontos leírásával bebizonyította, hogy a víz szennyeződésvektor, és megtalálta a Broad Street vízszivattyút. ez az oka.
1905-ben Dr.. McKay, Fleming, és Burton volt egy igazi munkát adatok bányászok , hogy ismertesse a fogászati foltok 87,5% -át a lakosság Colorado Springs . Az összefüggések elemzése, különös tekintettel a fogszuvasodás megfigyelésére, a jelenség földrajzi elemzése, a Pikes Peak környéki foltokkal rendelkező gyermekek elhelyezése , végül 1931-ben a fogorvos magyarázata a coloradói vizekben jelen lévő fluorhoz kapcsolódó jelenségről, amelyet a helyiek ittak .
1934-ben Gehlke és Biehl a clevelandi környéki népszámlálás eredményeit tanulmányozva rájöttek, hogy a korrelációs együttható az aggregáció szintjével nőtt, így felvetett egy földrajzi elemzésben ismert híres problémát, nevezetesen: a módosítható területegységi problémát (MAUP ).
A dél-afrikai Daniel Gerhardus Krige, névadó szerző kidolgozott technikája interpoláció a térbeli adatok 1951-1952 néven Kriging ( Kriging ), formába öntve Georges Matheron az École des Mines de Paris 1962.
Az első GIS-t, a kanadai földrajzi információs rendszert Roger Tomlinson hozta létre 1964-66-ban, és 1971-ben működött. A Környezetvédelmi Rendszer Kutatóintézetet (ESRI) 1969-ben alapította Jack és Laura Dangermond a kaliforniai Redlands- ben . 1978. február 22-én 23 óra 44 perckor az első GPS-műholdat az amerikai légierő indította útjára.
Az adatbányászat megjelenése óta az adatbányászati technikák megközelítették a térelemzésben használtakat, hogy nagy mennyiségű adatot dolgozzanak fel, javítsák a technikákat és diverzifikálják az alkalmazásokat.
A téradat-bányászat a nyilvánosság, a tudományos és a magánszféra területén egyaránt megtalálható. De a célok nem ugyanazok. A földrajzi adatok kiaknázásával a közigazgatások inkább a lakosságra és annak jólétére vonatkozó modelleket keresnek, míg az iparnak nyereségességi céljai vannak a gyárak, a telekommunikációs antennák, a reklámpanelek stb. Létrehozásában . . A tudományban a téradatok feltárása a kutatást szolgálja . A csillagászatban és az asztrofizikában az űradat- bányászatot az űrobjektumok automatikus osztályozására, vagy érdekes területek vagy ritka tárgyak felfedezésére használják univerzumunk tágasságában. A régészetben a földrajzi adatokat és a térbeli adatbányászatot használják új helyek felkutatására. A térbeli adatbányászatot az epidemiológiában használják a betegségek terjedésének nyomon követésére és előrejelzésére. Az élettudományok és a Föld is ezt a technikát alkalmazták a vegetáció változásának időbeli tendenciáinak értékelésére az érzékeny területeken.
„A földrajzi információs rendszer olyan számítógépes rendszer, amely különböző forrásokból lehetővé teszi a földrajzi elhelyezkedésű információk összegyűjtését és rendszerezését, kezelését, elemzését és kombinálását, fejlesztését és bemutatását, hozzájárulva különösen az űrkezeléshez. "
- Francia Fotogrammetriai és Távérzékelési Társaság, 1989
A térinformatika célja a földrajzi adatok megszerzése, archiválása, elemzése, megjelenítése és absztrakciója. A térinformatika hozzájárulása az adatbányászathoz a digitalizált földrajzi információk tárolása, amelyeket a földrajz elemző így kezelhet például a GIS-be integrált eszközzel a megjelenítéshez, vagy más külső eszközökkel, például a GeoDa. Az egyik legismertebb GIS a piacon az ArcGIS ; A Quantum GIS egy másik GIS, amelyre lehet hivatkozni, és amely a szabad szoftverek körébe tartozik. A térinformatika alfanumerikus és térbeli adatokat tartalmaz. A GIS-ben az adatokat vektoros vagy raszteres formátumban tárolják . A vektoros formátum a pontokat, vonalakat és sokszögeket kezeli, a vektorok alfanumerikus információkkal egészülnek ki. A raszteres adatokat hálóként képző sejtekként tárolják. Ezeket az adatokat alfanumerikus adatok is kiegészítik, például az átlag, a max, a min, a földrajzi mennyiségek összege.
A már említett GeoDa mellett találunk Geominer, Descartes, Fuzzy Spatial OQL for Fuzzy KDD, GWiM, GeoKD, SPIN! Stb.
A téradat-bányászati technikákat a hagyományos adatbányászat ihlette, további nehézségeket okozva az adatok jellegében, ami az adatok egymástól való függősége. A klasszikus adatbányászatban feltételezzük, hogy a változók függetlenek, a térbeli bányászatban az adatok összekapcsolódnak egymással: egy terület függ attól, ami a környéken történik, egy pillanatban egy helyzet attól függ, hogy mi történt. idő t-1. Ezek a kapcsolatok lehetnek metrikusak, topológiaiak vagy irányítottak.
A térbeli outlierek ( " outliers " ) keresése olyan térbeli adatok keresésére vonatkozik, amelyek értéke nem hasonlít a szomszédaikéra. Ez a technika megtalálható az autóforgalmi események (balesetek, forgalmi dugók stb.) Felkutatásában. A kiugró értékeket grafikus megjelenítési technikákkal vagy kvantitatív technikákkal lehet kimutatni. Az első kategóriában variogramos felhők és Moran diszperziós grafikonok találhatók ( " Moran scatterplots " ); a másodikban felsoroljuk a többi diszperziós grafikont.
Együttes elhelyezésA társhelyek keresése két vagy több egymáshoz kapcsolódó térbeli jelenségre vonatkozik. Pontosabban: Shekhar et al. mondjuk logikai térbeli jellemzők ( „ térjellemzőkhöz logikai ” ) olyan típusok űrobjektumok jelen van vagy hiányzik a különböző helyeken. Például növényfajok, állatok, utak típusai stb. logikai térbeli jellemzők. A helymeghatározási sémák a Boole-féle térbeli jellemzők részhalmazai, amelyek gyakran egyszerre, ugyanazon a helyen helyezkednek el.
A statisztikai módszerek azt feltételezik, hogy a minták és / vagy változók nincsenek korrelálva. A térbeli adatok elemzése során előfordul, hogy a változók autokorrelálnak, gyakran azért, mert méréseik a távolságtól függenek. Fontos tudni, hogy a változók autokorrelálnak-e vagy sem. Moran I , Geary C és Ripley K tesztjei pontos ismereteket nyújtanak.
Az interpoláció az a módszer, amellyel egy adott jelenség értékét megbecsülhetjük ugyanazon jelenség pontjain mért értékeinek függvényében . Interpolációra akkor van szükség, ha a méréseket nem lehet mindenhol elvégezni, például csapadék, hőmérséklet, talajösszetétel, szennyező források, növényzet.
A térbeli interpolációs technikák determinisztikus vagy sztochasztikus megközelítéseket alkalmaznak. Az első kategóriában a földrajzi elemzők előnyben részesítik Shepard , a legközelebbi szomszédok módszereit , vagy az inverz súlytávolságot ( " Inverse distance weighting " ), vagy a felosztás módszereit, például a Voronoi-diagramokat , technikai típusú laplacián spline-okat vagy felületeket ( " felszíni trend " ).
A második kategóriában a földrajzi elemzők a regresszió , a helyi regresszió és a kriging felé fordulnak .
SzegmentálásA csoportosítás terén térbeli adatok lehetővé teszi, hogy az elemek csoportosítása érdekes közös jellemzői, meg al-utak útvonalleírásokat, vagy csoportos pixel színek, amelyek majd használni, hogy megtalálja a természetes jellemzők (folyók, tenger, erdők). A szegmentálás során több, különböző célú technikát alkalmaznak:
Felügyelet nélküli térbeli osztályozás vagy térbeli szegmentálás fejleszthető hierarchikus módszerekkel, particionálási módszerekkel, másokkal a pontok vagy pályák sűrűsége alapján, vagy rácsokon alapuló módszerekkel.
A regionalizáció olyan technikákra terjed ki, amelyek célja a felügyelet nélküli osztályozás, amely magában foglalja a közelségi korlátokat. Pontosabban, ezek a technikák lehetővé teszik a térbeli objektumok csoportosítását összefüggő régiókban, miközben optimalizálják az "objektív" funkciót.
A pontminták elemzése a forró pontok, a járványkitörések vagy az ipari központok közelségének, valamint a jelenségek, például betegség, fajok eltűnése stb.
Osztályozás és regresszióA térbeli osztályozás modellek segítségével előre megjósolja az előre definiált jellemzőalapú osztályokat (magyarázó változókat), amelyek jellemzők, valamint a térbeli viszonyokat más jellemzőkkel és jellemzőikkel. Más szavakkal, a modellek lehetővé teszik az osztályozási függvények megbecsülését a környezet térbeli térbeli jellemzői szerint. Néhány olyan technika, amely a térbeli függőséget osztályozza vagy regresszió céljából modellezi:
Az egyidejű modell- automatikus regresszió ( " szimultán automatikus regressziós modell " vagy " SAR " ) a lineáris regressziós modell általánosítása, amelyet úgy határoztak meg, hogy figyelembe vegyék a térbeli autokorrelációt a besorolás és a regresszió problémáiban. A modellt olyan sokféle területen alkalmazzák, mint a helyi közgazdaságtan, képelemzés, hidrológia, kriminológiai elemzés stb.
A GWR ( " Geographically Weighted Regression " vagy " GWR " ) egy másik regressziós modell, amely figyelembe veszi a térbeli heterogenitást.
A véletlenszerű Markov-mező egy másik eszközcsaládot alkot a helyalapú jelenségek osztályozásához. Ebben a modellben az egymásrautaltsági viszonyokat egy irányítatlan grafikon írja le, figyelembe véve a markovi jellemzőt, amely kifejezi, hogy a függőség csak a közvetlen szomszédoktól származik. Ha osztályokat definiálja egy sor oldalakon vagy térbeli események egy Markov véletlen mező, akkor az osztályok véletlen változók rendelkező Markov tulajdonság, amely úgy véli, hogy az osztály csak attól függ, a szomszédokat , így fordítására a modellben helyfüggését.
Az egyidejű autoregressziós modell alternatívája a Markov véletlen mező fogalmán alapuló Conditional Autoregression modell . Ezt a modellt akkor alkalmazzák, amikor a függőségek lokálisak, első rendű függőséggel (kelet-nyugat / észak-dél), míg a SAR modellt inkább másodrendű függőségeknél alkalmazzák.
A térbeli asszociációs szabály olyan asszociációs szabály, ahol X vagy Y térbeli predikátumokat tartalmaz - távolság, irány, topológiai típusok - például közeli, távoli, tartalmaz, összefüggő stb. A térbeli asszociációk szabályainak megkeresése során az összes predikátumot megtalálja, az összes objektumkészletet ( " itemet " ) megtalálja, és létrehozza az erős szabályokat ( " erős szabályok " ), amelyek elérik a minimális támogatást és meghaladják a bizalomküszöb. A példát vettük
azt jelenti, hogy ha a tárgy iskola, akkor közel van egy parkhoz, 80% -os megbízhatósági aránnyal. Az iskola és a park tárgyak, állítmány.
Jellegzetes szabály Diszkrimináló szabály Jósló szabály Trendfelismerés GeovizualizációA módosítható területegységi probléma (MAUP) problémája akkor merül fel, amikor a téradatokat objektumok egyéni szintjén gyűjtik össze, és fokozatosan összesítik azokat korábban meghatározott csoportokba. Néha az eredmények változnak, amikor a csoportok száma csökken és az aggregáció növekszik. Valójában ez a probléma két különböző jelenségre bontható: az első a méretarány problémája - az eredmények akkor változnak, amikor a csoportok nagyobbak lesznek -, de az aggregáció problémája is - a csoportok megválasztása befolyásolja az eredményeket.
Mint minden adatbányászatban, a térbeli adatbányászatban is az adatok minőségének korlátai vannak. Az adatminőség két szempontját veszik figyelembe: a belső minőséget és a külső minőséget. Az első az adatok genealógiájára - honnan származnak, milyen átalakulásokon mentek keresztül -, a geometriai pontosságra ( helyzetpontosságra ) vonatkozik a terep vonatkozásában, az időszerűségre ( időbeli pontosság ), amely játékba hozza az időbeli szempont, logikai következetességgel, amely magában foglalja az adatok modellezését például a fizika törvényeihez viszonyítva, és a kimerültséget ( teljesség ). A második arra utal, hogy az adatok megfelelnek-e az elemzők igényeinek ( felhasználhatóság ). Az elemző minőségi adatai olyan adatok, amelyek megfelelnek vagy meghaladják az elvárásaikat.