Lekce 3 - Data Mining - Metodologie procesu a používané techniky

V minulé lekci, Data Mining - Základní pojmy, jsme si se seznámili se základními pojmy procesu Data mining.

V tomto tutoriálu Data Miningu si popíšeme existující metodiky Data Mining procesu, konkrétně 5A, SEMMA a CRISP-DM. Dále si upřesníme používané techniky.

Metodologie Data Mining procesu

Pro Data Mining jsou obecné metodiky dostupné již od 90. let. Některé metodiky zpracovali producenti programových systémů (5A, SEMMA). Vedle těchto máme i metodiky softwarově nezávislé, které vznikly ve spolupráci s výzkumnými institucemi (CRISP-DM).

Metodika 5A

Zkratku 5A tvoří pět počátečních písmen pěti klíčových kroků metodiky:

Assess - posouzení potřeb projektu,
Access - shromáždění potřebných dat,
Analyze - provedení analýz,
Akt - přeměna znalostí na akční znalosti,
Automate - převedení výsledků analýzy do praxe.

Metodika SEMMA

Podobně vznikl také akronym SEMMA:

Sample - vybrání vhodných objektů,
Explore - vizuální explorace a redukce dat,
Modify - seskupování objektů a hodnot atributů, datové transformace,
Model - analýza dat, modeling,
Assess - porovnání modelů a interpretace.

Metodika CRISP-DM

Metodika CRoss-Industry Standard Process for Data Mining - CRISP-DM vznikla v rámci Evropského výzkumného projektu s cílem navržení univerzálního modelu procesu dobývání znalostí z databází. Skládá se z šesti kroků, které si nyní popíšeme detailněji.

1. Business understanding

Business understanding je úvodní fází, ve které jde nejen o porozumění problematiky, ale i o správnou formulaci úlohy z manažerského hlediska. Rozlišují se různé typy úloh. Fáze dále zahrnuje inventuru zdrojů, hodnocení rizik, náklady vs. přínosy a stanovení předběžného plánu prací.

Typy úloh

Podívejme se teď na základní typy úloh:

Klasifikace/predikce - Cílem této úlohy je nalezení znalostí použitelných pro klasifikaci nových případů. Dává se přednost přesnosti pokrytí na úkor jednoduchosti (připouští se tedy větší množství méně srozumitelných dílčích znalostí Zi - viz obrázek níže). U predikce je důležitý čas - ze starších hodnot veličiny se odhaduje vývoj hodnot v budoucnosti. Jinými slovy chceme na trénovací množině dat předpovědět další neznámé objekty (např. vývoj cen akcií).
Deskripce (popis) - Při této úloze je zjišťována dominantní struktura nebo vazba, která je skrytá v datech. Na výstupu jsou požadovány srozumitelné znalosti Zi, pokrývající daný koncept (upřednostňuje se menší množství méně přesných znalostí Zi). Jinými slovy chceme získat povědomí o datech jako celku (např. analýza nákupního košíku zákazníka).
Hledání nugetů - Zde jsou na výstupu požadovány nové, překvapivé či zajímavé znalosti Zi, které nemusí plně pokrývat daný koncept. Jinak řečeno chceme zjistit zajímavé odchylky od normálních hodnot (např. identifikace podvodného jednání).

Prohlédněme si grafické zobrazení výše uvedených typů úloh a zaměřme se na jejich odlišné parametry vůči danému konceptu:

Typy úloh Data Mining - Data mining v Pythonu

Připomeňme si, že všechny úlohy lze nalézt v celé řadě aplikačních oblastí, například při:

identifikaci chyb,
predikci spotřeby elektrické energie,
analýze příčin poruch v telekomunikačních sítích,
analýze důvodů změny poskytovatele služeb,
segmentaci a klasifikaci klientů pojišťovny,
určení příčin poruch automobilů,
rozboru databáze pacientů v nemocnici,
potvrzení či vyvrácení statistických hypotéz.

2. Data understanding

Fáze Data understanding začíná prvotním sběrem dat a pokračuje činnostmi, které nám o nich umožní získat základní představu. Velmi klíčové je posouzení jejich kvality. Dále se stanovují různé deskriptivní charakteristiky (popisná statistika, jako např. četnosti hodnot různých atributů, průměrné hodnoty, minima, maxima...). K základnímu pochopení dat nám pomáhají i vizualizace, které bývají využívány v rámci jiných procesů obvykle až pro konečné výstupy.

3. Data preparation

Fáze Data preparation zahrnuje veškeré úkony vedoucí k vytvoření datového souboru, který následně zpracujeme jednotlivými analytickými metodami (resp. Data Mining technikami). Příprava dat zahrnuje selekci, čištění, transformaci, vytváření, integrování a formátování dat. Celá příprava dat bývá často nejpracnější částí celého procesu.

4. Modeling

Ve fázi Modeling dochází k samotnému dobývání znalostí pomocí analytických metod (resp. Data Mining technik) a tvoří se matematický model. K dispozici máme řadu metod/technik pro řešení dané úlohy, čili velká pozornost musí směřovat výběru té nejvhodnější. Obecně se doporučuje použití více metod/technik. V průběhu procesu může vzniknout potřeba modifikovat data, což znamená návrat k datovým transformacím z fáze Data Preparation. Součástí Modelingu může dále být i testování získaných znalostí na nezávislých datech.

5. Evaluation

Ve fázi Evaluation je proces ve stavu, kdy jsou k dispozici znalosti, které je ještě třeba vyhodnotit z manažerského pohledu (byly skutečně dosaženy cíle dané úlohy?). Závěrem fáze je potom rozhodnutí o způsobu využití výsledků.

6. Deployment

V Deployment fázi (konečné fázi) se již uvádí poznatky do praxe na základě rozhodnutí o způsobu využití výsledků (např. cílená reklamní kampaň). Ve většině případů je to zákazník (manažer, zadavatel), kdo provádí kroky vedoucí k využívání výsledků, proto je důležité správné pochopení závěru.

Podívejme se na celý procesní model CRISP_DM:

" CRISP_DM_Process - Data mining v Pythonu

Mimo metodiku CRISP-DM můžeme ještě na závěr uvést kontrolní krok, zajišťující zpětnou vazbu na Deployment (např. jak efektivní byla cílená reklamní kampaň?) a případnou aktualizaci matematického modelu v čase.

Techniky Data Miningu

Jak jsme si výše popsali, samotné použití Data Mining technik přichází na řadu v analytickém kroku č. 3, avšak jedním z nejdůležitějších úkolů je samotný výběr správné analytické metody/ techniky, což následuje hned za obchodním krokem č. 1. Existuje řada Data Mining technik:

1. Statistika:

kontingenční tabulka,
regresní analýza,
shluková analýza,
diskriminační analýza,
analýza rozptylu,
faktorová analýza,
bayesovská statistika.

2. Strojové učení:

statistické metody - viz bod 1),
symbolické metody umělé inteligence:
- rozhodovací stromy,
- principy případového usuzování (Case-Based Reasoning, CBR).
subsymbolické metody umělé inteligence:
- neuronové sítě,
- bayesovské sítě,
- genetické algoritmy.

Blíže se s těmito Data Mining technikami seznámíme v dalších lekcích.

V příští lekci, Data Mining - Statistické metody, se obecně seznámíme s vybranými statistickými metodami.

Článek pro vás napsala Aneta Siobos

Uživatelské hodnocení:

34 hlasů

Autor se věnuje datové analýze.

Aktivity

Nejčastěji vyhledáváné

Lekce 3 - Data Mining - Metodologie procesu a používané techniky

Metodologie Data Mining procesu

Metodika 5A

Metodika SEMMA

Metodika CRISP-DM

1. Business understanding

Typy úloh

2. Data understanding

3. Data preparation

4. Modeling

5. Evaluation

6. Deployment

Techniky Data Miningu