Az adatelemzés lépései: CRISP-DM

2014.06.17. 11:18 DataMiner

Az adatelemzés lépései: CRISP-DM

Az adatbányászat kezdetei a ‘80-as évekre tekintenek vissza, de még a ‘90-es években is erősen gyerekcipőben járt. 1999-ben néhány nagyvállalat (köztük az Mercedes-Benz, a Teradata és az SPSS) elkezdtek egy független módszertant kidolgozni az adattudomány számára CRoss-Industry Standard Process for Data Mining (röviden: CRISP-DM) név alatt, amely azóta iparági standarddá vált. A CRISP-DM eljárása a következő hat – ciklikusan, nem feltétlenül ilyen sorrendben alkalmazott – lépésből áll:

1. Szervezeti (üzleti) megértés

A lépés lényege, hogy érteni kell annak a szervezetnek (leggyakrabban üzletnek) a tevékenységét, céljait, amely számára az adattudományt alkalmazzuk. Meg kell találni azokat a kérdéseket, célokat amelyek megoldására az adatbányászatot alkalmazzuk, és meg kell fogalmaznunk azokat az adattudomány nyelvén. Rendszerint magas szintű, általános kérdésekből indulunk ki (pl. hogyan lehetne hatékonyabb a gyártás menete? hogyan szervezhetnénk hatékonyabban a céges gépkocsiflottát? stb.), amelyeket egyre konkrétabb, specifikusabb részkérdésekre bontunk.

2. Adatmegértés

Ebben az előkészítési fázisban tisztába kerülünk a rendelkezésre álló adatokkal: összegyűjtjük, minősítjük, értelmezzük őket. Az adatok áttekintése nem egyszerű feladat, mert a számos fizikai tároló, szervezeti egység között az adatok széttöredezhetnek, egy részük léte, holléte feledésbe is mehet. Külön ellenőrizni kell megbízhatóságukat, pontosságukat, hiszen a pontatlan, hiányos adatok rosszabbak lehetnek (rossz döntésekhez vezetnek), mint a nem létezőek. Önmagában az adatok ismerete még nem elég, különböző metainformációkat (pl. honnan, kitől származnak, milyen módszerrel gyűjtötték őket stb). is be kell gyűjtenünk, ami külön kutatást igényel.

3. Adatelőkészítés

Az adatok számos formában érkezhetnek (táblázat, szöveg, kép, diagram stb.), külön nehézséget jelent a narratív szövegek (kommentek, hangfelvételek) és más, nem sorokba-oszlopokba rendezett információk kezelése. Az adatok preparálása többrétű lehet: adatkészletek egyesítése, redukálása, adattisztítás, formátumok (pl. dátumok, telefonszámok, nevek) egységesítése stb. Az adatelőkészítés végére a nyers adatokból a modellezéshez szükséges tartalmú és formátumú adatkészleteknek kell összeállniuk.

4. Modellezés

Az adatmodellezés során a való életből vett megfigyeléseket számítógépes formában reprezentáljuk, vagyis különféle algoritmusokkal mintákat keresünk, azonosítunk és jelenítünk meg az adatkészletből. A modellezés során jutunk el az előkészülettől az adatok feldolgozásáig és értelmezéséig. Külön kihívást jelent a megfelelő modell kiválasztása és paraméterezése.

A két alapvető adatbányászati modellezési típus a klasszifikáció és a predikció, bár vannak vegyes modellek is (pl. a döntési fa [Decision Tree]). Más megközelítésben lehetnek egyszerűek (egyetlen processzből állóak) vagy összetettek (több alprocesszből állnak).

5. Kiértékelés

Az adatok kiértékelése révén tudjuk megállapítani a modellünk értékét, használhatóságát és eldönteni, mit kezdhetünk az eredményekkel; ellenőrizzük, hogy az adatelemzés szempontjából megfelelő modell(ek) az üzleti célra is valóban alkalmas(ak)-e.

A kiértékelés különböző matematikai és logikai technikával történhet (pl. téves eredményekkel való tesztelés, keresztvalidáció). Előfordulhat, hogy a modellek rossz vagy érdektelen eredményekre jutnak, ennek a rosszul megválasztott (vagy rosszul alkalmazott) modell lehet az oka, vagy egyszerűen csak értéktelenek a rendelkezésre álló adatok. Az értékelésnél lényeges tényező az emberi aspektus (szakértelem, tapasztalat).

6. Alkalmazás

Ez a lépés az eredmények konkrét felhasználása: a kidolgozott modell felállítása; a modellek eredményeinek ismertetése; már létező rendszerekkel való integrációja, egyeztetés az eredmények felhasználóival (részükről gyakori bizonyos szkepszis, közöny vagy ellenségesség). Az alkalmazás alapértelmezésben a megrendelő dolga, nem az elemzőé.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

A bejegyzés trackback címe:

https://adattudomany.blog.hu/api/trackback/id/tr316262711

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Keresés

Miről szólunk?

Friss topikok

Archívum

Témák

Feedek

Egyéb

Adatbányászat, statisztika, webanalitika, big data

Digitális adattudomány kezdőknek és haladóknak

2014.06.17. 11:18 DataMiner