Adatok vizualizálása

Adatok vizualizálása
Alosztálya Megjelenítés ( in )
Része Adattudomány
Kulcs ember William Playfair
Florence Nightingale
Charles Joseph Minard
John Tukey
Edward Tufte

Az adatok (vagy a dataviz vagy az adatok grafikus ábrázolása ) vizualizálása módszerek összessége az adatok grafikonon történő összefoglalására . Adatmegjelenítési része az adatok a tudomány .

Az adatok vizualizációja a XVIII .  Században született , különösen William Playfair munkájával . Széles körben növekszik a XIX .  Században Charles Dupin és André-Michel Guerry 1820-as és 1830-as évekbeli adatkártyáinak feltalálásával , Florence Nightingale munkájával, a második XIX .  Század pedig Charles Joseph Minard (1781-1870) munkájával. ), Francis Amasa Walker  vagy akár Émile Cheysson . Végül a második XX .  Századtól kap lendületet John Tukey vezetésével, amely kiemeli a vizualizáció szerepét a statisztikákban és Edward Tufte , végül pedig a digitális fejlődésével .

Az adatmegjelenítést különösen a hivatalos statisztikákban , a tudományokban , az újságírásban és különösen az adatújságírásban és általánosabban az adattudományban használják .

Történelem

A XVIII .  Század vége, William Playfair (1759-1823) 1786-ban kiadta a Kereskedelmi és politikai atlasz című könyvet , amelyben a szerző a gazdasági adatok alakulását ábrázoló idősorok grafikonjainak sorozatát követi nyomon. vonatkozó Anglia és különösen fejlődése a kereskedelmi mérleg alatt XVIII E  században , ami született a modern grafikus ábrázolása az adatokat. Ugyanebben a könyvben a szerző a történelem első oszlopdiagramját is képviseli . William Playfair-nek is köszönhetjük az első ismert kördiagramot. A grafikon 1801-ben jelent meg a Statisztikai Breviáriumban , az egyes országok területét, jövedelem összegét és az adók összegét.

1819-ben Jean Picot történész kiadta Genfben a Svájc vagy ennek az országnak és annak huszonkét kantonjának statisztikái című kötetét [...] . Kihajtható lapon két grafikon található, Johannes Fehr adatai alapján: "Svájc huszonkét kantonjának összehasonlító kiterjedése vagy területe, amelyet az egyes kantonok neve mellett húzott vonalak hossza képvisel". Huszonkét svájci kanton összehasonlító populációja, amelyet az egyes kantonok neve mellett húzott vonalak hossza képvisel ”.

Az 1820-as években elkezdtük statisztikai adatokat ábrázolni egy térképen. 1826-ban, Charles Dupin rajzolt choropleth térkép a népművelés Franciaországban , színezés francia megyék szerint intenzitása változó képviseli. Ez a vizuális reprezentáció gyors sikerrel járt, és André-Michel Guerry és Adriano Balbi azonnal felvették, akik choropleth térképeket készítettek a nyomozásról, a vagyon elleni bűncselekmények és az emberek elleni bűncselekmények számáról, majd Guerry esszéjében. Franciaország erkölcsi statisztikája 1833-ban jelent meg. Röviddel ezután Armand Joseph Frère de Montizon javasolta az első " ponttérképet" , amelyen a francia lakosság osztályok szerinti ábrázolása Carte Philosophique címmel Franciaország népességét mutatja be . John Snow brit orvos 1855-ben egy kolera ponttérképet készített Londonban , amelyen ábrázolta az elhunytak helyét és a londoni város vízpontjainak elhelyezkedését, kiemelve ezzel azt a tényt, hogy a járvány vízzel terjed. 1861-ben Charles Joseph Minard azt javasolta, hogy egy olyan térképen ábrázolják az adatokat, amelyek körrajzokat használnak, amelyek területe arányos a képviselt mennyiséggel ( példa az osztályok és a fogyasztók által a patára küldött hentes húsmennyiségének ábrás és hozzávetőleges térképére ).

1857-ben Florence Nightingale közzétette diagramját a keleti hadseregen belüli halálozás okairól . A grafikonon látható, hogy a krími háborúban részt vevő angol katonák nem az ellenséggel szembesülve harcolnak, hanem azoknak az egészségügyi körülményeknek az áldozatai, amelyekben élnek.

Charles Booth 1889-ben nagyszabású néprajzi megközelítést és térképészeti formában történő vizualizációt kombinált, hogy beszámoljon a londoni életkörülményekről. Ez a szociológiai tanulmány, amely az egyik legfontosabb a maga nemében, Booth által fizetett nyomozócsoportot mozgósított az egyes kataszteri telek szintjén történő adatgyűjtésre. A Booth által javasolt megjelenítés részletek, színek szerint, 7 "osztály". A megjelenítés lehetővé teszi a klaszterek azonosítását, különös tekintettel a legalacsonyabb osztályra, amelyet Booth „alacsonyabb osztálynak” nevez. Gonosz, félig bűnöző ”.

A XIX .  Század második felében számos fontos újítást találunk, például a nyers vizualizációkat az olasz Luigi Perozzo vagy a német Gustav Zeuner három dimenziójában .

Az Egyesült Királyságban Francis Galton volt az, aki jelentős mértékben hozzájárult az adatok vizualizálásához azáltal, hogy két változó ( pontfelhő ) közötti összefüggés grafikus ábrázolását kínálta, de meteorológiai térképeket is. .

Az első XX .  Században a statisztikusok kevésbé figyelnek az adatok megjelenítésére.

Az 1960-as években John Tukey a statisztikai adatok vizualizációját adta nemesi leveleiben, nevezetesen Exploratory Data Analysis (1977) című könyvével .

2005-ben Leland Wilkinson kiadta a Grafika grammatikáját, a statisztikai grafika tervezésének egyik legfontosabb elméleti munkáját. Wilkinson a statisztikai gráfot az adatok és a geometriai objektumok (pontok, vonalak, oszlopok stb.) Esztétikai jellemzőinek (szín, alak, méret stb.) Közötti megfelelésként határozza meg.

Vizualizáció felépítése

A vizualizáció egy vizuális elemből, egy skálából, egy koordináta-rendszerből és egy kontextusból áll.

Egy pont felhő , mi használjuk a helyzetét a tér pontjait, mint egy vizuális elem képviseli az adatokat. Az oszlopdiagramon az oszlopok hossza az adatoknak megfelelő vizuális elem.

A koordinátarendszer lehet derékszögű, sarki vagy földrajzi.

A skála lehet lineáris vagy logaritmikus, ha kvantitatív változó, kategorikus, ha kategorikus változó, vagy időbeli, amikor itt az idő.

Tipológia az ábrázolt alakzatok szerint

Oszlopdiagram

A függőleges oszlopdiagram esetében egy diszkrét változó minden modalitására egy téglalapot képviselünk, amelynek magassága a folytonos változó értékét képviseli, szélességének pedig nincs statisztikai értelmezése.

Vízszintes oszlopdiagram esetében a folytonos változó értékét a téglalap szélessége és ennek a téglalapnak a magassága jelenti, statisztikai értelmezés nélkül.

Szintén gyakran találkozunk egymásra helyezett oszlopdiagramokkal .

Kördiagram

A kördiagram lehet kördiagram vagy fánkdiagram .

A kör- vagy kördiagramot az arányok ábrázolására használják. A kördiagramon az a szög képviseli az egyes kategóriák arányát az egészben.

A fánkdiagram kördiagram , lyukkal a közepén. Ebben az esetben az egyes kategóriáknak megfelelő körív hossza jelenti az egyes kategóriák részarányát a képviselt egészben.

Pöttyös felhő

A szórásdiagramot általában két változó kapcsolatának ábrázolására használják. Pontfelhőben az x tengely és az y tengely egyes pontjainak koordinátái az egyes változók értékeit képviselik. Lehetővé teszi két változó közötti összefüggés kiemelését.

Vonal

A vonal vagy vonaldiagram olyan pontfelhő, amelyben a pontok összekapcsolódtak egymással (lineáris, köbös ... interpolációval).

Buborékok

Kvantitatív adatokat is ábrázolhatunk olyan buborékok felhasználásával, amelyekben a buborékok területe arányos a képviselt nagysággal.

Hőtérkép

A hőtérkép (hőtérkép, hőtérkép) olyan mátrix, amelynek sejtjei a képviselt változó értéke szerint színeződnek.

Boxplot

A box-whisker diagram csak a vizsgált tulajdonság néhány pozíciójellemzőjét foglalja össze (medián, kvartilis, min / max vagy decilis). Főleg ugyanazt a tulajdonságot hasonlítják össze két különböző méretű populációban. Ez egy olyan téglalap rajzolása, amely az első kvartilisből a harmadik kvartilisbe megy és amelyet a medián vág. Néha szegmenseket adnak a végekhez, amelyek min / max értékekig, vagy az első és a kilencedik decilisig vezetnek. Ezt boxplotnak vagy lábdiagramnak nevezzük.

Sparklines

A Sparklines egy olyan formátum, amelyet Edward Tufte fejlesztett ki a mini grafikák számára, és beilleszthető egy oldal szövegébe.

Tufte írja értékgörbék „adat intenzív grafika, egyszerű design, és akkora, mint egy szó”. Míg a tipikus diagramot a lehető legtöbb adat megjelenítésére tervezték, és a szövegfolyamon kívül helyezik el, a szikravonalak tömörek, emlékezetesek és pontosan a megfelelő helyen találhatók.

Tipológia a képviselt adatok típusa szerint

Az időbeli adatok megjelenítése

Az idősor grafikon a változó időbeli alakulását mutatja. Ez a leggyakrabban használt grafikus ábrázolás, értelmezése általában nagyon intuitív.

Ha az idősor diszkrét, akkor általában egyszerű oszlopdiagramot használunk annak ábrázolására. Például az éves vagy havi adatokat gyakran oszlopdiagramok ábrázolják. Másrészt, ha az adatok folyamatos, ez sokkal gyakoribb, hogy képviselje őket a vonal telek vagy terület diagram , mint William Playfair tette az ő gazdasági és politikai Atlas (lásd itt és itt ).

Geolokált adatok megjelenítése

A statisztikai térkép egy statisztikai változó értékének ábrázolására szolgál egy globális entitás egyes földrajzi egységeiben. A statisztikai térkép előnye, hogy mindkettő globális elemzést képes feltárni, miközben mindenki számára lehetővé teszi az egyes földrajzi egységek részleteinek megtalálását. Másrészről az a hibája, hogy az egyes földrajzi egységeknek a területével arányos fontosságot tulajdonít, míg sok esetben előnyösebb lenne, ha az egyes földrajzi egységeknek adott fontosság egy másik változóhoz, például területéhez viszonyulna. például.

Míg a térképeket ott találták ki több mint 5000 éve, a statisztikai kártyák valóban csak a XVII .  Században jelentek meg . 1686-ban Edmond Halley a világ térképét ábrázolta szimbólumokkal, amelyek lehetővé tették a szelek eredetének és különösen annak intenzitásának megadását. Később, a XIX .  Században , John Snow egy londoni térkép, amely az 1854 szeptemberi járvány során a kolera halálát és a vízhez való hozzáférés pontjait mutatja be a városban. Térképén látható, hogy a kolerát víz továbbítja.

Több változó kapcsolatának megjelenítése

Két változó kapcsolatának ábrázolásához elterjedt egy szóródiagram használata .

Ha kettőnél több változó van, sok megoldás létezik. A legegyszerűbb megoldás a pontfelhők mátrixának ábrázolása. Használhat egy buborékdiagramot is, amelyben a szóródiagramhoz hasonlóan a buborékok koordinátái két változó értékét képviselik, és amelyben a buborékok területe egy harmadik változót képvisel.

Az arányok megjelenítése

Statisztikai eloszlás megjelenítése

Diszkrét esetben gyakori az oszlopdiagram használata, ahol az egyes téglalapok magassága az egyes modalitásokhoz tartozó számokat vagy frekvenciákat jelenti.

A fa szerkezetének megtekintése

Ha az adatok hierarchikus felépítésűek, akkor ábrázolhatók dendrogram , treemap vagy akár sunburst formájában .

Treemap

A treemap egy vizuális ábrázolás, amelyet Ben Shneiderman talált ki 1990-ben, hogy a merevlemezén lévő helyet foglalja el. Ebben az ábrázolásban az egyes téglalapok felülete képviseli az egyes elemek részeit az egészben. Ezt az ábrázolást később más célokra használták fel. Például Martin Wattenberg az ipar „piaci térképének” ábrázolására használta, amelyben az egyes téglalapok területe arányos az iparágban tevékenykedő vállalatok piaci kapitalizációjával. Marcos Westamp olyan információs térképet készített, amelyben a téglalapok mérete a sajtónak szentelt cikkek számának függvénye. Matthew Bloch, Shan Carter és Amanda Cox treemap segítségével szemléltette az egyes jószágok részarányát az amerikai háztartások fogyasztásában, valamint egy színkódot az infláció megjelenítésére.

Hálózati vizualizáció

Filippo Menczer (Indiana University) elsőként fedezte fel a bot tevékenységét a Twitteren 2010-ben egy hálózati megjelenítés révén. A szűrőbuborékok kialakulásának vizualizálására most hálózati elemzést használnak.

Áramlás vizualizáció

A folyamatábra egy bizonyos típusú képviseleti láthatóvá áramlások  .

A kumulatív munkaerő ábrázolása

Folyamatos változók esetén ábrázolhatjuk a kumulatív számok (vagy frekvenciák) sokszögét . A cselekmény elvét a folyamatos elemi statisztikák című cikk magyarázza . Ez a sokszög lehetővé teszi a forma intervallumának és - különbség szerint - bármely intervallum effektívjének nagyon gyors leolvasását . Ez lehetővé teszi a kvartilisek és a decilisek nagyon gyors leolvasását is . Ez az ábrázolás előkészíti a valószínűségeloszlás függvényének diagramját .

Néha azt látjuk, hogy a diszkrét változók esetében kumulatív számok sokszöge jelenik meg. Szigorúan véve szükség lenne egy lépcsőrajz megrajzolására.

Bibliográfia

Videográfia

Kiállítások

Megjegyzések és hivatkozások

Megjegyzések

  1. Edward Tufte beszél „  adattérképek  ” , szó szerint „az adatok térképek”

Hivatkozások

  1. Victorin Chevallier, "  Minard úr, a hidak és utak főfelügyelőjének nyugdíjazása  ", Annales des Ponts et Chaussées: Mémoires et documents , Párizs, Dunod , vol.  II 5 -én  -sorozat, 2 e wk. 1871, p.  1–22
  2. "  életrajza Charles Joseph Minard  " ( ArchívWikiwixArchive.isGoogle • Mit kell tenni? ) (Hozzáfért október 20, 2014 ) a 19 th .org, site fordítani a történelem, a 19 th  század
  3. Charles Joseph Minard: Napóleon márciusának feltérképezése 1861-ben , John Corbett, a Térileg Integrált Társadalomtudományi Központ
  4. Michael Friendly , „Az adatmegjelenítés rövid története” , az adatmegjelenítés kézikönyvében ,2008( DOI  10.1007 / 978-3-540-33037-0_2 ) , p.  19.
  5. Tufte 2001 , p.  9.
  6. Barátságos 2008 , p.  9-10
  7. Tufte 2001 , p.  33
  8. Barátságos 2008 , p.  39
  9. Adriano Balbi és André-Michel Guerry , összehasonlító statisztika az oktatás helyzetéről és a bűncselekmények számáról az akadémiák és a francia királyi bíróságok különböző körzeteiben , Párizs, Jules Renouard,1829
  10. Jean-Paul Bord ( szerk. ) És Pierre-Robert Baduel ( szerk. ), A tudás térképei , Khartala,2004, P.  593
  11. Barátságos 2008 , p.  27.
  12. Barátságos 2008 , p.  30
  13. "  Ez a piackutatás 120 éves, és ötvözi a Big Data és a kvalitatív adatokat  " a Conseils en marketingről ,2018. január 22(megtekintés : 2020. december 7. )
  14. Barátságos, 2008 , p.  32
  15. Barátságos, 2008 , p.  37
  16. Tufte 2001 , p.  53
  17. (in) Hadley Wickham , Ggplot2: Elegáns Graphics az adatok elemzése , Springer Verlag, al.  "Use R",2009( DOI  10.1007 / 978-0-387-98141-3 )
  18. Yau 2013 , p.  93
  19. Yau 2013 , p.  96
  20. Yau 2013 , p.  104
  21. Yau 2013 , p.  109.
  22. Yau 2011 , p.  94. o
  23. Yau 2011 , p.  137
  24. Yau 2011 , p.  142
  25. Tufte 2001 , p.  44.
  26. Yau 2011 , p.  112
  27. Yau 2011 , p.  180-181
  28. Yau 2011 , p.  118
  29. Yau 2011 , p.  192-193
  30. Toussaint Loua , Párizs lakosságának statisztikai atlasza . Párizs: J. Dejey. 1873
  31. Yau 2011 , p.  229
  32. Yau 2011 , p.  93
  33. Tufte 2001 , p.  16-20
  34. Tufte 2001 , p.  20–24
  35. Yau 2011 , p.  188-189
  36. (in) Isabel Meirelles , Design for Information , Rockport Publishers ,2013, P.  18.
  37. Yau 2011 , p.  157
  38. Meirelles 2013 , p.  31
  39. Meirelles 2013 , p.  39
  40. "  Newmap  " , a newsmap.jp címen (hozzáférés : 2013. december 9. )
  41. (in) Matthew Bloch , Shan Carter és Amanda Cox , "  Minden az infláció Kis alkatrészek  " , a The New York Times ,2008. május 3( online olvasás )
  42. Meirelles 2013 , p.  44.
  43. "  4 ok, amiért a közösségi média manipulál minket  " , a Marketing tippekben ,2020. szeptember 30(megtekintés : 2020. december 7. )
  44. Martin Grandjean , "A  tudás egy hálózat  ", Les Cahiers du Numérique , vol.  10, n o  3,2014, P.  37–54 ( online olvasás , konzultáció 2014. október 15-én )
  45. http://www.davidbihanic.com/exhibition/
  46. https://exhibits.stanford.edu/dataviz

Lásd is

Kapcsolódó cikkek

Külső linkek