Alosztálya | Megjelenítés ( in ) |
---|---|
Része | Adattudomány |
Kulcs ember |
William Playfair Florence Nightingale Charles Joseph Minard John Tukey Edward Tufte |
Az adatok (vagy a dataviz vagy az adatok grafikus ábrázolása ) vizualizálása módszerek összessége az adatok grafikonon történő összefoglalására . Adatmegjelenítési része az adatok a tudomány .
Az adatok vizualizációja a XVIII . Században született , különösen William Playfair munkájával . Széles körben növekszik a XIX . Században Charles Dupin és André-Michel Guerry 1820-as és 1830-as évekbeli adatkártyáinak feltalálásával , Florence Nightingale munkájával, a második XIX . Század pedig Charles Joseph Minard (1781-1870) munkájával. ), Francis Amasa Walker vagy akár Émile Cheysson . Végül a második XX . Századtól kap lendületet John Tukey vezetésével, amely kiemeli a vizualizáció szerepét a statisztikákban és Edward Tufte , végül pedig a digitális fejlődésével .
Az adatmegjelenítést különösen a hivatalos statisztikákban , a tudományokban , az újságírásban és különösen az adatújságírásban és általánosabban az adattudományban használják .
A XVIII . Század vége, William Playfair (1759-1823) 1786-ban kiadta a Kereskedelmi és politikai atlasz című könyvet , amelyben a szerző a gazdasági adatok alakulását ábrázoló idősorok grafikonjainak sorozatát követi nyomon. vonatkozó Anglia és különösen fejlődése a kereskedelmi mérleg alatt XVIII E században , ami született a modern grafikus ábrázolása az adatokat. Ugyanebben a könyvben a szerző a történelem első oszlopdiagramját is képviseli . William Playfair-nek is köszönhetjük az első ismert kördiagramot. A grafikon 1801-ben jelent meg a Statisztikai Breviáriumban , az egyes országok területét, jövedelem összegét és az adók összegét.
1819-ben Jean Picot történész kiadta Genfben a Svájc vagy ennek az országnak és annak huszonkét kantonjának statisztikái című kötetét [...] . Kihajtható lapon két grafikon található, Johannes Fehr adatai alapján: "Svájc huszonkét kantonjának összehasonlító kiterjedése vagy területe, amelyet az egyes kantonok neve mellett húzott vonalak hossza képvisel". Huszonkét svájci kanton összehasonlító populációja, amelyet az egyes kantonok neve mellett húzott vonalak hossza képvisel ”.
Az 1820-as években elkezdtük statisztikai adatokat ábrázolni egy térképen. 1826-ban, Charles Dupin rajzolt choropleth térkép a népművelés Franciaországban , színezés francia megyék szerint intenzitása változó képviseli. Ez a vizuális reprezentáció gyors sikerrel járt, és André-Michel Guerry és Adriano Balbi azonnal felvették, akik choropleth térképeket készítettek a nyomozásról, a vagyon elleni bűncselekmények és az emberek elleni bűncselekmények számáról, majd Guerry esszéjében. Franciaország erkölcsi statisztikája 1833-ban jelent meg. Röviddel ezután Armand Joseph Frère de Montizon javasolta az első " ponttérképet" , amelyen a francia lakosság osztályok szerinti ábrázolása Carte Philosophique címmel Franciaország népességét mutatja be . John Snow brit orvos 1855-ben egy kolera ponttérképet készített Londonban , amelyen ábrázolta az elhunytak helyét és a londoni város vízpontjainak elhelyezkedését, kiemelve ezzel azt a tényt, hogy a járvány vízzel terjed. 1861-ben Charles Joseph Minard azt javasolta, hogy egy olyan térképen ábrázolják az adatokat, amelyek körrajzokat használnak, amelyek területe arányos a képviselt mennyiséggel ( példa az osztályok és a fogyasztók által a patára küldött hentes húsmennyiségének ábrás és hozzávetőleges térképére ).
1857-ben Florence Nightingale közzétette diagramját a keleti hadseregen belüli halálozás okairól . A grafikonon látható, hogy a krími háborúban részt vevő angol katonák nem az ellenséggel szembesülve harcolnak, hanem azoknak az egészségügyi körülményeknek az áldozatai, amelyekben élnek.
Charles Booth 1889-ben nagyszabású néprajzi megközelítést és térképészeti formában történő vizualizációt kombinált, hogy beszámoljon a londoni életkörülményekről. Ez a szociológiai tanulmány, amely az egyik legfontosabb a maga nemében, Booth által fizetett nyomozócsoportot mozgósított az egyes kataszteri telek szintjén történő adatgyűjtésre. A Booth által javasolt megjelenítés részletek, színek szerint, 7 "osztály". A megjelenítés lehetővé teszi a klaszterek azonosítását, különös tekintettel a legalacsonyabb osztályra, amelyet Booth „alacsonyabb osztálynak” nevez. Gonosz, félig bűnöző ”.
A XIX . Század második felében számos fontos újítást találunk, például a nyers vizualizációkat az olasz Luigi Perozzo vagy a német Gustav Zeuner három dimenziójában .
Az Egyesült Királyságban Francis Galton volt az, aki jelentős mértékben hozzájárult az adatok vizualizálásához azáltal, hogy két változó ( pontfelhő ) közötti összefüggés grafikus ábrázolását kínálta, de meteorológiai térképeket is. .
Az első XX . Században a statisztikusok kevésbé figyelnek az adatok megjelenítésére.
Az 1960-as években John Tukey a statisztikai adatok vizualizációját adta nemesi leveleiben, nevezetesen Exploratory Data Analysis (1977) című könyvével .
2005-ben Leland Wilkinson kiadta a Grafika grammatikáját, a statisztikai grafika tervezésének egyik legfontosabb elméleti munkáját. Wilkinson a statisztikai gráfot az adatok és a geometriai objektumok (pontok, vonalak, oszlopok stb.) Esztétikai jellemzőinek (szín, alak, méret stb.) Közötti megfelelésként határozza meg.
A vizualizáció egy vizuális elemből, egy skálából, egy koordináta-rendszerből és egy kontextusból áll.
Egy pont felhő , mi használjuk a helyzetét a tér pontjait, mint egy vizuális elem képviseli az adatokat. Az oszlopdiagramon az oszlopok hossza az adatoknak megfelelő vizuális elem.
A koordinátarendszer lehet derékszögű, sarki vagy földrajzi.
A skála lehet lineáris vagy logaritmikus, ha kvantitatív változó, kategorikus, ha kategorikus változó, vagy időbeli, amikor itt az idő.
A függőleges oszlopdiagram esetében egy diszkrét változó minden modalitására egy téglalapot képviselünk, amelynek magassága a folytonos változó értékét képviseli, szélességének pedig nincs statisztikai értelmezése.
Vízszintes oszlopdiagram esetében a folytonos változó értékét a téglalap szélessége és ennek a téglalapnak a magassága jelenti, statisztikai értelmezés nélkül.
Szintén gyakran találkozunk egymásra helyezett oszlopdiagramokkal .
Skócia behozatala és kivitele 1780 karácsonya és 1781 karácsonya között. Ez a történelem első oszlopdiagramja. William Playfair kiadta a Kereskedelmi és politikai atlasz című könyvében (1786).
Bár listákon az esszé a morális statisztika Franciaország által André-Michel Guerry , fedélzeti VII 1833
A kördiagram lehet kördiagram vagy fánkdiagram .
A kör- vagy kördiagramot az arányok ábrázolására használják. A kördiagramon az a szög képviseli az egyes kategóriák arányát az egészben.
A fánkdiagram kördiagram , lyukkal a közepén. Ebben az esetben az egyes kategóriáknak megfelelő körív hossza jelenti az egyes kategóriák részarányát a képviselt egészben.
Kördiagramokat William Playfair közölte a The Statisztikai Breviary (1801). A körök az egyes országok területét képviselik. Az egyes köröktől balra levő sorok a lakosságot jelölik (lakosok millióiban), a jobb oldali vonalak pedig a teljes beszedett adót (font font fontban). A szaggatott vonal összeköti a jövedelem és az adó vonalat. Lejtésének nincs értelmezése, de a lejtő jele igen. A grafikon azt mutatja, hogy Nagy-Britanniában a teljes adó a lakossághoz viszonyítva magasabb, mint más országokban.
A szórásdiagramot általában két változó kapcsolatának ábrázolására használják. Pontfelhőben az x tengely és az y tengely egyes pontjainak koordinátái az egyes változók értékeit képviselik. Lehetővé teszi két változó közötti összefüggés kiemelését.
A vonal vagy vonaldiagram olyan pontfelhő, amelyben a pontok összekapcsolódtak egymással (lineáris, köbös ... interpolációval).
Kvantitatív adatokat is ábrázolhatunk olyan buborékok felhasználásával, amelyekben a buborékok területe arányos a képviselt nagysággal.
A hőtérkép (hőtérkép, hőtérkép) olyan mátrix, amelynek sejtjei a képviselt változó értéke szerint színeződnek.
A box-whisker diagram csak a vizsgált tulajdonság néhány pozíciójellemzőjét foglalja össze (medián, kvartilis, min / max vagy decilis). Főleg ugyanazt a tulajdonságot hasonlítják össze két különböző méretű populációban. Ez egy olyan téglalap rajzolása, amely az első kvartilisből a harmadik kvartilisbe megy és amelyet a medián vág. Néha szegmenseket adnak a végekhez, amelyek min / max értékekig, vagy az első és a kilencedik decilisig vezetnek. Ezt boxplotnak vagy lábdiagramnak nevezzük.
A Sparklines egy olyan formátum, amelyet Edward Tufte fejlesztett ki a mini grafikák számára, és beilleszthető egy oldal szövegébe.
Tufte írja értékgörbék „adat intenzív grafika, egyszerű design, és akkora, mint egy szó”. Míg a tipikus diagramot a lehető legtöbb adat megjelenítésére tervezték, és a szövegfolyamon kívül helyezik el, a szikravonalak tömörek, emlékezetesek és pontosan a megfelelő helyen találhatók.
Az idősor grafikon a változó időbeli alakulását mutatja. Ez a leggyakrabban használt grafikus ábrázolás, értelmezése általában nagyon intuitív.
Ha az idősor diszkrét, akkor általában egyszerű oszlopdiagramot használunk annak ábrázolására. Például az éves vagy havi adatokat gyakran oszlopdiagramok ábrázolják. Másrészt, ha az adatok folyamatos, ez sokkal gyakoribb, hogy képviselje őket a vonal telek vagy terület diagram , mint William Playfair tette az ő gazdasági és politikai Atlas (lásd itt és itt ).
A statisztikai térkép egy statisztikai változó értékének ábrázolására szolgál egy globális entitás egyes földrajzi egységeiben. A statisztikai térkép előnye, hogy mindkettő globális elemzést képes feltárni, miközben mindenki számára lehetővé teszi az egyes földrajzi egységek részleteinek megtalálását. Másrészről az a hibája, hogy az egyes földrajzi egységeknek a területével arányos fontosságot tulajdonít, míg sok esetben előnyösebb lenne, ha az egyes földrajzi egységeknek adott fontosság egy másik változóhoz, például területéhez viszonyulna. például.
Míg a térképeket ott találták ki több mint 5000 éve, a statisztikai kártyák valóban csak a XVII . Században jelentek meg . 1686-ban Edmond Halley a világ térképét ábrázolta szimbólumokkal, amelyek lehetővé tették a szelek eredetének és különösen annak intenzitásának megadását. Később, a XIX . Században , John Snow egy londoni térkép, amely az 1854 szeptemberi járvány során a kolera halálát és a vízhez való hozzáférés pontjait mutatja be a városban. Térképén látható, hogy a kolerát víz továbbítja.
Két változó kapcsolatának ábrázolásához elterjedt egy szóródiagram használata .
Ha kettőnél több változó van, sok megoldás létezik. A legegyszerűbb megoldás a pontfelhők mátrixának ábrázolása. Használhat egy buborékdiagramot is, amelyben a szóródiagramhoz hasonlóan a buborékok koordinátái két változó értékét képviselik, és amelyben a buborékok területe egy harmadik változót képvisel.
Diszkrét esetben gyakori az oszlopdiagram használata, ahol az egyes téglalapok magassága az egyes modalitásokhoz tartozó számokat vagy frekvenciákat jelenti.
Ha az adatok hierarchikus felépítésűek, akkor ábrázolhatók dendrogram , treemap vagy akár sunburst formájában .
TreemapA treemap egy vizuális ábrázolás, amelyet Ben Shneiderman talált ki 1990-ben, hogy a merevlemezén lévő helyet foglalja el. Ebben az ábrázolásban az egyes téglalapok felülete képviseli az egyes elemek részeit az egészben. Ezt az ábrázolást később más célokra használták fel. Például Martin Wattenberg az ipar „piaci térképének” ábrázolására használta, amelyben az egyes téglalapok területe arányos az iparágban tevékenykedő vállalatok piaci kapitalizációjával. Marcos Westamp olyan információs térképet készített, amelyben a téglalapok mérete a sajtónak szentelt cikkek számának függvénye. Matthew Bloch, Shan Carter és Amanda Cox treemap segítségével szemléltette az egyes jószágok részarányát az amerikai háztartások fogyasztásában, valamint egy színkódot az infláció megjelenítésére.
Filippo Menczer (Indiana University) elsőként fedezte fel a bot tevékenységét a Twitteren 2010-ben egy hálózati megjelenítés révén. A szűrőbuborékok kialakulásának vizualizálására most hálózati elemzést használnak.
A folyamatábra egy bizonyos típusú képviseleti láthatóvá áramlások .
Folyamatos változók esetén ábrázolhatjuk a kumulatív számok (vagy frekvenciák) sokszögét . A cselekmény elvét a folyamatos elemi statisztikák című cikk magyarázza . Ez a sokszög lehetővé teszi a forma intervallumának és - különbség szerint - bármely intervallum effektívjének nagyon gyors leolvasását . Ez lehetővé teszi a kvartilisek és a decilisek nagyon gyors leolvasását is . Ez az ábrázolás előkészíti a valószínűségeloszlás függvényének diagramját .
Néha azt látjuk, hogy a diszkrét változók esetében kumulatív számok sokszöge jelenik meg. Szigorúan véve szükség lenne egy lépcsőrajz megrajzolására.