Sok esetben még nem aknázzuk ki a benne rejlő lehetőségeket, pedig az adatbázisok összekapcsolásával, az adatok közti kapcsolatok feltérképezésével a Power BI nagy segítséget jelenthet az üzleti folyamatokban. Ráadásul ma már – a közhiedelemmel ellentétben – a használata nem jelent túlzott anyagi terhet sem a vállalkozások számára. Interjú Géczi Ádámmal, aki 10 éve foglalkozik informatikával az adatkezelés, a robotika és a mesterséges intelligencia területein.
A legtöbben (még akkor is, ha használjuk) annyit tudunk a Power BI-ról, hogy adatok rendszerezésére, elemzésére és különböző vizualizációkra használható. Ez azonban csak a felszín. Mi az, amiben ezeken túl is a segítségünkre lehet?
A Power BI nevében is benne van a „business intelligence” kifejezés. Ha különböző vizualizációk megjelenítésére használjuk, az tulajdonképpen csak riporting. A haladó kurzus célja megmutatni, hogy az adatelemzésből hogyan lehet üzleti intelligenciát előállítani.
Mikor erre a felhasználási területre kerestem példákat, akkor bukkantam a dallasi állatkert történetére. Ott a Power BI segítségével az elefántokra szerelt nyomkövető rendszerek adatait a látogatószámmal és az időjárási adatokkal összevetve tudták elemezni az állatok viselkedését. Ami ebben érdekes, az a külső adatforrások bekapcsolása. Hogyan működik ez pontosan a Power BI esetében?
A Power BI azért is egy remek program, mert a Microsoft nagyon komoly erőforrásokat fordított arra, hogy különböző konnektorokat építsen fel, azaz olyan kapcsolódási pontokat, ahol különböző adatforrásokhoz lehet csatlakozni. Az azért nem olyan gyakori, hogy azonnali adatkapcsolat legyen, vagyis „on the fly” lássuk az adatokat, gyakran inkább snapshotokkal dolgoznak a riportok. Lehet készíteni olyan jelentéseket, amelyek valós időben bekérdeznek egy-egy adatbázisba, viszont ez olyan jogosultság- és teljesítménybeli kérdéseket vet fel, ami miatt legtöbbször nem célszerű alkalmazni.
Az adatoknak két nagy családja van: a tranzakciós, OLTP adatok (Online Transaction Processing), illetve az OLAP (Online Analytical Processing) adatbázisok. Előbbi a valós idejű tranzakciós adatokat jelenti, míg az utóbbi az összesített idősoros adatokat elemzi. Vagyis jelen példánál az OLTP adatok az elefántok GPS koordinátái, a Power BI-t azonban a valós idejű adatbázis kezelés helyett azok csoportosítására és elemzésére érdemes alkalmazni. Ez a megközelítés ma már kissé old school, hiszen az utóbbi években a Big Data és a strukturálatlan adathalmazok voltak a trend. Én azonban abban hiszek, hogy
akkor tudunk hatékonyak lenni, ha van egy tranzakciós adatbázisunk, és van egy strukturált adattárház. Ebből pedig olyan riporting ökoszisztémát alakítunk ki, ami skálázható.
A strukturálatlan adatokkal való munka, a vizualizációk megjelenítése eleve sok erőforrást felemészt - ha ehhez még valós időben kell egy akár több tízmillió adatsoros adatbázissal is kommunikálni, az nem szerencsés állapot.
Az alap riportoláson túl akkor hogyan segítheti a Power BI az üzleti döntéseket?
Kivételek
A Power BI előnye, hogy nagyon sok dinamikus adatmegjelenítési módszert támogat. A haladó kurzus témái lesznek a különböző metrikák és mérési rendszerek, illetve ezek egymásba ágyazása, amivel olyan aggregált nézeteket tudunk megmutatni, amik segítenek a kivételekre fókuszálni. Tulajdonképpen minden vizualizációs eszköznek, így a Power BI-nak is ez a lényege, hogy eljussunk oda, amikor a kivételekre fókuszálunk. Ne egyben nézzünk több ezer sornyi adatot, hanem legyenek olyan jól definiált mértékeink és KPI-k, amik mentén meg tudjuk könnyíteni a döntési folyamatokat. Ez már közelebb áll az üzleti intelligenciához.
Közös adatforrás
A Power BI használatával képesek lehetünk olyan hierarchikusan felépített riportokat készíteni, ahol különböző jogosultságokat tudunk létrehozni. Be tudjuk állítani például, hogy
egy értékesítési menedzser csak a saját területét lássa, egy értékesítési ügyintéző a saját országa adatait, de egy vezető már a teljes adatbázist elérje.
Mindenki ugyanazt az adatbázist használja, csak más jogosultsági szinten, vagyis megvalósul a „single source of information”: az egyetlen, közös információforrás rendszere.
Scripting
A Power BI-ban rejlő harmadik lehetőség, hogy támogatja a scripting nyelveket. A manapság divatos Python-integrációra elő van készítve. Ennek két szegmense: egyrészt on the fly, azaz valós időben tudunk az adatokkal dolgozni, illetve használhatunk olyan vizualizációs lehetőségeket, amik kiegészítik a Power BI eszköztárát. A Python akkor segít, ha úgy szeretnénk a forrásadatainkon változtatni, hogy nem módosítjuk az eredeti adatbázist, vagy nem alakítjuk át a riportunk struktúráját. Akkor is tudjuk alkalmazni, ha korrelációs vizsgálatot szeretnénk végezni, hiszen segít megérteni az adatok közti mélyebb összefüggéseket.
A korábbi példánál maradva, ha az értékesítési adatainkat szeretnénk megvizsgálni abból az aspektusból, hogy van-e kapcsolat a vásárlók átlagéletkora és az általuk elköltött összeg között – mert mondjuk ez alapján szeretnénk targetálni – akkor Python-integrálással tudunk olyan elemzést készíteni, ami akár egy egyszerűbb statisztikai függvénnyel is meg tudja mutatni, van-e az adatok közt összefüggés, majd ezeket több dimenzióban meg tudja jeleníteni.
Egy korábbi Power BI-témájú interjúnkban elhangzott az a vélemény is, hogy bár nagyon sok mindenre használható a Power BI, de nem iktatható ki az emberi beavatkozás a folyamatból. Pontosan mit kell érteni ez alatt?
Amikor adatelemzéssel foglalkozunk, akkor megvannak azok a statisztikai metrikák, amik mentén nekünk kell megmondanunk, hogy mi az a pontszám, a korreláció esetén az R-érték, ami alapján elfogadjuk, hogy az adatok közt van összefüggés vagy nincs. Attól, hogy intelligens eszközeink vannak, nem hagyhatjuk ki az emberi intelligenciát.
Nem konkrétan Power BI téma, de jól szemlélteti, mire gondolok: korábban dolgoztam chatbot fejlesztésben, ahol egyik nap jött a főnök, hogy feltett egy kérdést a botnak, amire az nem tudott válaszolni. Mikor megkérdeztem, mit kérdezett tőle, kiderült, hogy arra nem volt betanítva az alkalmazás. Ha a 8 éves gyerekemtől megkérdezem a másodfokú egyenlet megoldóképletét, akkor nem fogja tudni, de ez nem jelenti azt, hogy ostoba lenne. Tehát azért tisztában kell lennünk azzal, hogy „mire lövünk”, ez pedig igényli a humán intelligenciát.
Ha vannak elképzeléseink, hogy milyen adatok között milyen összefüggések lehetnek, a Power BI segíteni tud azok alátámasztásában. Támpontot nyújt a döntési folyamatokban, kapunk egy vizualizációt, ami alapján meg tudjuk ítélni, hogy az adott függvényünk jól működik-e vagy sem. Ha igen, akkor tudunk vele a későbbiekben dolgozni.
Tudnál erre konkrét példát mondani, hogy jobban megértsük a folyamatot?
Nagyon jól alkalmazható a Power BI például a csalásvizsgálatoknál. Ha vannak különböző tranzakciós adataink a munkavállalók érkezési és távozási idejéről (belépőkártya), a látogatott webhelyekről, a számítógép által gyűjtött adatokról (fájlmásolás, e-mail küldés stb.), akkor már tudunk korrelációs példákat készíteni, és meg tudjuk becsülni, hogy ki az, aki esetleg fel akar mondani, vagy adatot lop, és még sorolhatnám.
Tegyük fel például, hogy vannak idősoros adataink:
- Az irodába történő belépés, kilépés, a helyszínek közötti mozgások
- A látogatott webhelyek IP-címei
- Fájlkezelési műveletek
Gyanítom, hogy valaki fel szeretne mondani, és vinne adatokat is magával a cégtől. Ha erre vannak mintáim, akkor egy lineáris vagy polinomiális eloszlással megnézhetjük az adatpontok közti összefüggést, a Power BI pedig ki tudja rajzolni a függvényt. Ennél bonyolultabb módszerek is alkalmazhatók, de azt gondolom, ez egy jó kezdet. Ha az adatok között van összefüggés, és ezt az adatszettet kiveszem, akkor alkalmazhatom rá a Python predict funkcióját, ami azt jelenti, hogy a mintában lévő tranzakciós adatoknál megbecsüli, hogy kimerítik-e a csalás, visszaélés fogalmát, vagy sem.
Nagyjából ez a határ, ameddig a rendszer használható. Az Ipar 4.0 világában olyan előrejelzéseket lehet készíteni, amik mondjuk egy kemence esetében az égőfejek hőfoka és azok élettartama közti összefüggést elemzi, majd ez alapján megjósolja, hogy melyik mikor fog tönkremenni. Ehhez beszerzéseket tudunk társítani, így csak annyit kell raktáron tartani, ami az adott pillanatban éppen szükséges. Ezt mesterséges intelligenciának hívjuk, pedig ez tulajdonképpen a statisztikai függvények nagyon gyors alkalmazása. Ma már olyan számítási kapacitások vannak, amikkel akár kliensoldalon is gyorsan végbemennek ezek a folyamatok.
Mennyire terjedt el a hazai üzleti életben a Power BI használata?
Szerintem egyelőre még nincs meg a bizalom. Sokszor tapasztalom, hogy ott van egy informatív, látványos dashboard, de a vezető nem hiszi el, hogy az adat valós. Gyakran az sem segít, hogy bizonyos vizualizációk esetében le lehet fúrni az adatokhoz, az aggregált adatokból vissza lehet bontani, hogy az adott mezőhöz milyen sorok tartoznak. Sok esetben a skillset, a tudás is hiányzik a Power BI használatához, illetve még mindig sokan gondolják, hogy drága a használata. A cloud technológiával viszont jól és költséghatékonyan lehet ezeket fejleszteni és üzemeltetni. Mondhatjuk azt, hogy egyre jobban terjed a Power BI, de leggyakrabban nem arra használják, amire valóban lehetne. Készítenek egy riportot, és aztán megmutatnak egy olyan listanézetet, amit akár Excelben is meg lehetne csinálni. A Power BI ennél sokkal több.
Van egy szemléletes történetem: sok évvel ezelőtt volt egy német kollégánk, egy idősebb úr. Készítettünk egy olyan grafikont, amin két görbe volt, az egyik az igény, a másik a gyártás, vagyis annyit lehetett látni rajta, hogy mennyire van kereslet, és ehhez képest mennyit gyártunk. Ez még nem Power BI-al készült, akkor ez még nem létezett. Viszont a kollégám erre a két vonalra is azt mondta: „Stop producing bullshit! This is too much information!” [Ne gyárts felesleges hülyeségeket! Ez túl sok információ! – szerk.]
Nyilván ez a másik véglet, de a Power BI használatának az egyik célja az idő és energia megtakarítása, hogy azt mutassuk meg, hol van a probléma, mert az üzleti döntéseknél azzal kell igazán foglalkoznunk. A lényegest kell megkülönböztetnünk a lényegtelentől.