A Big Data korában minden egyes percben hatalmas adatmennyiség keletkezik. 2017-ben egy vizsgált perc alatt több mint 3 millió keresést indítottak a Google-ön, 120-an regisztráltak a LinkedIn-re, és több mint 4 millió videót néztek meg a YouTube-on. Mindezt egy perc alatt. Ha az üzleti szférát vizsgáljuk, ott még egy mikrovállalkozás is tud a saját méretéhez képest óriási mennyiségű, akár több terabyte adatot generálni. Mindezek azonban semmit sem érnek, ha nem tudjuk ezeket feldolgozni és értelmezhető formában megjeleníteni.
Azt talán már nem kell hangsúlyozni, mekkora értéket jelent az adat maga. Azonban, ha mindent nyers adatként látnánk, csak egy töredékét tudnánk értelmezni.
A tavaly megjelent 4. Mátrix film adott egy újabb lökést a virtuális valóságok témájának. Hogy hogyan jön ez most ide? Még az eredeti filmből emlékezhetünk rá, ahogy a Nabukodonozor fedélzetén a monitoron futó zöld 0-ák és 1-esek sokaságán át figyelték a szereplők Morpheust és Neót. Nos, bár jól hangzik, az emberi agy nem igazán így működik. Számunkra ez az adatmennyiség nyers formájában feldolgozhatatlan, így bámulhatnánk a számoszlopokat napestig, akkor sem fognánk fel, mi történik.
De nem kell ennyire messze menni a valóságtól ahhoz, hogy megértsük, miért is fontos az adatok vizuális megjelenítése. Tegyük fel, hogy különböző országok népességi adatait nézzük:
Még ha nagyság szerinti sorrendbe is lennének rendezve a számok, akkor is sok időt vesz igénybe, ha a fenti táblázat alapján megpróbálunk viszonyítani, az egyes országok népessége mennyivel több vagy kevesebb a többihez képest. Ugyanakkor, ha ezeket az adatokat egy diagramba rendezzük (akár a pontos számok nélkül) már sokkal könnyebb azonnal megállapítani, hogy mekkora mondjuk Vietnám lakossága Indonéziához képest:
Az adatvizualizáció lényege, hogy nem csupán magukat az adatokat szemlélteti, hanem felfedi az azok közti kapcsolatokat is. Segítségével olyan információkhoz is hozzájuthatunk, amelyek megfelelő forma és strukturáltság hiányában csak nagyon nehezen lennének észrevehetők, vagy akár teljesen elvesznének.
A vizualizáció tehát fontos. De hogyan is kezdjünk neki? Honnan tudhatjuk a saját adatainkból mit és hogyan érdemes megjeleníteni? A megértéshez nézzük végig először a legismertebb és leggyakrabban használt vizualizációs formákat:
# Diagram
Klasszikus megjelenítési forma, amivel már mindenki találkozott. Legyen szó kör- vagy tortadiagramról (franciául beszélő kollégáktól hallottuk már camembert diagramnak is), oszlop-, vonal- vagy sávdiagramról (lásd a fenti példát), ez a formátum alkalmas trendek és időbeli eltérések megjelenítésére.
# Grafikon
A diagramokhoz nagyon hasonló megjelenítési forma, de egy adatsor helyett két vagy több adat összefüggéseinek ábrázolására is alkalmas. Jól használható, ha például a globális felmelegedés okait szeretnénk szemléltetni:
Forrás: https://www.bloomberg.com/graphics/2015-whats-warming-the-world/?leadSource=uverify%20wall
# Infografika
Az előzőekhez képest összetett ábrázolási móddal, szövegekből, rajzokból, képekből és ábrákból álló komplex illusztrációkat készíthetünk. Az itt bemutatott ábrán például a készítők azt szemléltették, milyen mélységig érzékelhetők még egy repülőgép jelzései, híres épületeket felhasználva a távolságok érzékeltetésére.
Forrás: http://apps.washingtonpost.com/g/page/world/the-depth-of-the-problem/931/
Ha a fentieknél kicsit speciálisabb vagy komplexebb megjelenítési formára van szükségünk, az alábbiak lesznek segítségünkre:
# Szórásdiagram
A szórásdiagrammal vagy másnéven pontfelhővel megvizsgálhatjuk, hogy két szempont között milyen kapcsolat van. Nemcsak a kapcsolat válik láthatóvá, de az eloszlást és a kiugró értékeket is könnyen észrevehetjük a segítségével.
Forrás: https://bixpert.hu/blog/adatvizualizacio-lass-ne-csak-nezz
# Hőtérkép
Leggyakrabban weboldalaknál használják a látogatók viselkedésének megjelenítésére (hová kattintanak, hol mennyi időt töltenek el). A hőtérképek tulajdonképpen az adatok eloszlását illusztrálják különböző színekkel megjelenítve azok sűrűségét. Ezáltal nem csak weboldalak vizsgálatára alkalmas: használhatjuk mondjuk népsűrűség megjelenítésére, de akár arra is, hogy megmutassuk, hogy egy boltban melyik polc előtt állnak meg legtöbben nézelődni.
Amilyen hasznos, olyan veszélyes
Az adatvizualizációs lehetőségek tárháza szinte végtelen, mégis fontos tudatosítani, hogy ez csak egy eszköz. Hatékonysága attól függ, mennyire hitelesek az adatok, amikből dolgozunk, és mennyire használjuk jól az egyes elemeket.
Amikor viszonylag kis adatsávon belüli értékeket szeretnénk megjeleníteni, sokszor nincs értelme 0-tól indítani a tengelyt, mert nem lesz látványos az eltérés. Ha mondjuk 1 hét árbevételét szeretnénk megjeleníteni, ahol az értékek 400 ezer és 450 ezer Ft között vannak, akkor kétféleképp is kinézhet az ábránk:
Ha a bal oldali képre nézünk, gondolhatjuk, hogy igazából nincs nagy eltérés az egyes napok bevételei között, míg, ha a jobb oldali képet vizsgáljuk, rögtön egyértelmű, hogy a keddi és pénteki napok visszaesésének okait kell vizsgálnunk.
Soha ne felejtsük el azonban, hogy egy ábra mindig csak egy ábra, és néha bármiféle negatív szándék ellenére is alkalmas lehet akár manipulációra is. A fenti példán is jól látható, mennyire könnyen tudjuk befolyásolni a közönséget azzal, hogyan jelenítjük meg az információkat. Gondoljuk újra a fenti két adatsort úgy, ha az Y tengely mondjuk a születések számát jelzi, míg az X az elmúlt öt évet. A jobb oldali ábrát nézve könnyen elborzadunk, milyen drasztikus visszaesés volt tapasztalható bizonyos években, míg a bal oldali megjelenítésnél az látszik, hogy egy viszonylag kis értéksávon belül maradt az ingadozás.
Az ilyen torzítások sokszor figyelmetlenségből vagy hanyagságból adódnak, de számtalanszor előfordul az is, hogy valaki szándékosan akar minket befolyásolni. Sose felejtsünk tehát az adatok mögé nézni, még akkor is, ha a világ legszebb grafikonját teszik elénk.