Az adattudomány, adatbányászat ma az informatika legdivatosabb témái közé tartoznak. Mégis nehéz az első lépéseket megtenni a témában, akár kitanulni szeretné valaki az adatelemzést, akár általános áttekintést kapni arról, mire valóak, hogyan alkalmazható a saját szakterületünkön. Azért indítjuk ezt a blogot, hogy ebben segítséget nyújtsunk az érdeklődőknek.
Mindannyiunkat körülvesznek a digitális adatok. Termeljük, tároljuk, olykor még használjuk is őket (nem túl gyakran, emlékezzünk a két évvel ezelőtti fényképekre), de igazán hasznos, új következtetéseket ritkán vonunk le belőlük. Főleg intézmények, vállalkozások esetében tapasztalni gyakran, hogy a rendelkezésre álló (olykor kimondottan bőséges és részletes) információk parlagon hevernek a szervereken. Ennek szinte minden esetben az az oka, hogy a tulajdonos nincs tisztában az adathalmaz hasznosíthatóságával, nem ismeri az erre szolgáló módszereket, eszközöket.
Mi az adattudomány?
Az adattudomány a rendelkezésre álló különféle (részben saját, részben másoktól származó) adatokból tudományos módszerek segítségével valószínű választ nyújt olyan általános kérdésekre, amelyek az adatokból első látásra nem nyilvánvalóak, mégis megválaszolhatóak. Kicsit bombasztikusan fogalmazva: a rendelkezésre álló információkból valószínűsíteni tudjuk a jövőt (hol-mikor alakul ki forgalmi dugó, mennyi termék fogyása várható a jövő évben, milyen eséllyel és mikor ér bizonyos káresemény valakit stb.). Ez persze számos korlátozással igaz, de alapvető szabály, hogy minél több információ áll rendelkezésünkre, annál inkább igaz – ha a világ minden információja ismert lenne, akkor teljesen igaz lenne.
Az adattudomány komplex matematikai, statisztikai ismereteket igényel, illetve – tekintettel, hogy digitális adatokról, eszközökről van szó – jelentős részben informatikai tudásra is szükség van. Ezek közül is igyekszünk minél többet érinteni.
A produktív adatelemzés számos részterület együttműködését feltételezi, így például az adatvizualizációt, gépi tanulást, mesterséges intelligenciát, programozást. Különböző alkalmazási irányai is léteznek, pl. a webanalitika (a világhálón lévő információk elemzése) vagy a big data ("nagy adat"; igen nagy adattömeg elemzése), szövegbányászat ("text mining"; természetes szövegek analízise), amelyekről szintén szeretnénk itt szót keríteni.
Miért érdemes olvasni az adattudomány blogot?
Habár a blog fő célja elsősorban közérthető áttekintést nyújtani különösebb szakmabeli előismeretek nélkül, időről időre azért foglalkozunk majd a különböző szoftvereszközökkel, elméleti kérdésekkel is, hogy kapaszkodót nyújtsunk azoknak, akik speciálisabb ismeretekre is szert szeretnének tenni. Bemutatunk majd esettanulmányokat is, amelyen demonstráljuk az adattudomány módszereit és eredményeit.
Végül pedig: várunk minden kérdést, javaslatot és hozzájárulást, amiből a blog olvasói is okulhatnak.
Adatra fel!