Az adatbányászat – a többi IT-ágazattal azonos módon – erős teoretikus és praktikus feltételeket egyaránt támaszt. Vagyis nem elég, hogy tudjuk, hogyan kell megoldani egy adattudományi feladatot, ténylegesen is ki kell vitelezni a megoldást. Különösen a big data területén igaz, hogy a szokatlanul kiterjed és heterogén adatkészletek új, eredeti technológiák kidolgozását követelik meg (amelyek ugyanakkor még hatékonyabb elméleti módszerek kialakítását teszik majd lehetővé). A big data megoldás közül napjainkra leginkább az Apache Hadoop platform bizonyul sikeresnek, ezt szeretnénk most röviden bemutatni.
Adatbányászat, statisztika, webanalitika, big data
2014.06.25. 14:36
Crowdsourcing az adatbányászatban
Címkék: adatbányászat a gyakorlatban
Tételezzük fel, hogy (blogunkat olvasva) rájöttél, mennyire hasznos lenne céged adataiból valami hasznosat kiolvasni. De ki az, aki ezt el tudná végezni neked? Ahogy a legtöbb professzionális tevékenység esetében, úgy az adatelemzésnél (sőt, ma Magyarországon az adatelemzésnél különösen) is probléma megfelelő szakembereket találni. De ha találnál is ilyet, egyáltalán nem biztos, hogy meg is tudnád fizetni. Mi lehet tehát ilyen esetben a megoldás? Például crowdsourcing, amely segítségével hatékonyan lehet korlátozott humánerőforrásokat kiaknázni.
Szólj hozzá!
2014.06.17. 11:18
Az adatelemzés lépései: CRISP-DM
Az adatbányászat kezdetei a ‘80-as évekre tekintenek vissza, de még a ‘90-es években is erősen gyerekcipőben járt. 1999-ben néhány nagyvállalat (köztük az Mercedes-Benz, a Teradata és az SPSS) elkezdtek egy független módszertant kidolgozni az adattudomány számára CRoss-Industry Standard Process for Data Mining (röviden: CRISP-DM) név alatt, amely azóta iparági standarddá vált. A CRISP-DM eljárása a következő hat – ciklikusan, nem feltétlenül ilyen sorrendben alkalmazott – lépésből áll:
Szólj hozzá!
2014.06.11. 11:49
Real-time adatelemzés Twitterből
Címkék: adatbányászat a gyakorlatban adattudomány példák
Az Economist magazin aktuális száma egy remek, jól érthető valós példát hogy az adatbányászat felhasználására, amit érdemes nektek is megismernetek. Egy (stílszerűen, bár nem túl fantáziadúsan) DataminR nevű New York-i startup cég Twitter-üzenetek adatelemzésével és ezek értékesítésével foglalkozik, a bolt pedig a Twittert övező általános szkepszis ellenére is remekül megy nekik. De mi is az üzleti modell lényege?
Szólj hozzá!
2014.06.06. 09:17
Mindennapi adatelemzés: hogyan használjuk a fürdőszobánkat?
Címkék: Google Analytics adatbányászat a gyakorlatban adattudomány példák Hardver
Az adattudomány módszereit jellemzően nagy adattömegek üzleti célú elemzésére használjuk (blogunk is jobbára ilyen alkalmazásokat tart szem előtt). De ez nem jelenti azt, hogy kizárólag a fentiekre való az adatbányászat: nem is gondolnád, mennyi hétköznapi helyzetben produkálhat tanulságos eredményeket, ha rögzíted, összegyűjtjöd és kiértékeled a körülötted zajló "történéseket". Az alábbiakban egy ilyen banális és mégis érdekes példát osztunk meg: hogyan elemezzük fürdőszoba-használatunkat!
Minden háztartásban a fürdőszoba az egyik leggyakrabban használt helyiség: időről időre minden családtag felkeresi hosszabb-rövidebb időre. Elgondolkodtál már azon, mi lenne, ha pontos áttekintéssel rendelkeznél arról, mikor, milyen gyakorisággal, mennyi ideig foglalt? Nem is olyan nehéz ezt megvalósítani: ma már könnyen elérhetőek azok a szoftverek és hardverek is, amelyeket felhasználhatsz hozzá.
Szólj hozzá!
2014.06.02. 20:13
Néhány szó a prediktív analízisről
Címkék: adattudomány alapok prediktív analízis
Mindnyájan ábrándozunk arról, milyen jó lenne megjósolni a jövőt. Különösen az üzleti döntésekben lenne hasznos, ha tudnánk, milyen sikerrel kecsegtet egy-egy új ötletünk. Nos, ha bizonyos korlátokkal is, de az adatelemzés bizony valami ehhez hasonlót kínál számunkra.
Mi a prediktív analízis és mire jó?
Az adatbányászat, big data kifejezésekkel a prediktív analízis (olykor predikciós analízis) gyakran szerepel együtt. A prediktív analízis (ritkábban: előrejelzés) az adattudomány egyik módszere. Lényege, hogy speciális jellemzők alapján kategóriákba sorolva adatainkat, a múltbeli viselkedést alapul véve valószínűsítünk ("előre megmondunk" – innen a prediktív elnevezés) egy jövőbeli viselkedést adott helyzetben (illetve a pontosság kedvéért: múltbeli ismeretlen helyzetekre is alkalmazhatjuk, de ez kevésbé jellemző). A prediktív elemzés haszna lehet például, hogy alaposabban megismerheted vásárlóidat, partnereidet, és a várható eredményre tekintettel tudatosan képes leszel célzott erőfeszítéseket tenni egy kívánt cél elősegítése (vagy nem kívánt cél elkerülésére), növelheted hatékonyságodat.
Szólj hozzá!
2014.05.29. 11:02
Beköszöntő – az adattudományról mindekinek
Címkék: adattudomány alapok
Az adattudomány, adatbányászat ma az informatika legdivatosabb témái közé tartoznak. Mégis nehéz az első lépéseket megtenni a témában, akár kitanulni szeretné valaki az adatelemzést, akár általános áttekintést kapni arról, mire valóak, hogyan alkalmazható a saját szakterületünkön. Azért indítjuk ezt a blogot, hogy ebben segítséget nyújtsunk az érdeklődőknek.
Mindannyiunkat körülvesznek a digitális adatok. Termeljük, tároljuk, olykor még használjuk is őket (nem túl gyakran, emlékezzünk a két évvel ezelőtti fényképekre), de igazán hasznos, új következtetéseket ritkán vonunk le belőlük. Főleg intézmények, vállalkozások esetében tapasztalni gyakran, hogy a rendelkezésre álló (olykor kimondottan bőséges és részletes) információk parlagon hevernek a szervereken. Ennek szinte minden esetben az az oka, hogy a tulajdonos nincs tisztában az adathalmaz hasznosíthatóságával, nem ismeri az erre szolgáló módszereket, eszközöket.
Mi az adattudomány?
Az adattudomány a rendelkezésre álló különféle (részben saját, részben másoktól származó) adatokból tudományos módszerek segítségével valószínű választ nyújt olyan általános kérdésekre, amelyek az adatokból első látásra nem nyilvánvalóak, mégis megválaszolhatóak. Kicsit bombasztikusan fogalmazva: a rendelkezésre álló információkból valószínűsíteni tudjuk a jövőt (hol-mikor alakul ki forgalmi dugó, mennyi termék fogyása várható a jövő évben, milyen eséllyel és mikor ér bizonyos káresemény valakit stb.). Ez persze számos korlátozással igaz, de alapvető szabály, hogy minél több információ áll rendelkezésünkre, annál inkább igaz – ha a világ minden információja ismert lenne, akkor teljesen igaz lenne.
Az adattudomány komplex matematikai, statisztikai ismereteket igényel, illetve – tekintettel, hogy digitális adatokról, eszközökről van szó – jelentős részben informatikai tudásra is szükség van. Ezek közül is igyekszünk minél többet érinteni.
A produktív adatelemzés számos részterület együttműködését feltételezi, így például az adatvizualizációt, gépi tanulást, mesterséges intelligenciát, programozást. Különböző alkalmazási irányai is léteznek, pl. a webanalitika (a világhálón lévő információk elemzése) vagy a big data ("nagy adat"; igen nagy adattömeg elemzése), szövegbányászat ("text mining"; természetes szövegek analízise), amelyekről szintén szeretnénk itt szót keríteni.
Miért érdemes olvasni az adattudomány blogot?
Habár a blog fő célja elsősorban közérthető áttekintést nyújtani különösebb szakmabeli előismeretek nélkül, időről időre azért foglalkozunk majd a különböző szoftvereszközökkel, elméleti kérdésekkel is, hogy kapaszkodót nyújtsunk azoknak, akik speciálisabb ismeretekre is szert szeretnének tenni. Bemutatunk majd esettanulmányokat is, amelyen demonstráljuk az adattudomány módszereit és eredményeit.
Végül pedig: várunk minden kérdést, javaslatot és hozzájárulást, amiből a blog olvasói is okulhatnak.
Adatra fel!