Lekce 3 - Data Mining - Metodologie procesu a používané techniky
V minulé lekci, Data Mining - Základní pojmy, jsme si se seznámili se základními pojmy procesu Data mining.
V tomto tutoriálu Data Miningu si popíšeme existující metodiky Data Mining procesu, konkrétně 5A, SEMMA a CRISP-DM. Dále si upřesníme používané techniky.
Metodologie Data Mining procesu
Pro Data Mining jsou obecné metodiky dostupné již od 90. let. Některé metodiky zpracovali producenti programových systémů (5A, SEMMA). Vedle těchto máme i metodiky softwarově nezávislé, které vznikly ve spolupráci s výzkumnými institucemi (CRISP-DM).
Metodika 5A
Zkratku 5A tvoří pět počátečních písmen pěti klíčových kroků metodiky:
- Assess - posouzení potřeb projektu,
- Access - shromáždění potřebných dat,
- Analyze - provedení analýz,
- Akt - přeměna znalostí na akční znalosti,
- Automate - převedení výsledků analýzy do praxe.
Metodika SEMMA
Podobně vznikl také akronym SEMMA:
- Sample - vybrání vhodných objektů,
- Explore - vizuální explorace a redukce dat,
- Modify - seskupování objektů a hodnot atributů, datové transformace,
- Model - analýza dat, modeling,
- Assess - porovnání modelů a interpretace.
Metodika CRISP-DM
Metodika CRoss-Industry Standard Process for Data Mining - CRISP-DM vznikla v rámci Evropského výzkumného projektu s cílem navržení univerzálního modelu procesu dobývání znalostí z databází. Skládá se z šesti kroků, které si nyní popíšeme detailněji.
1. Business understanding
Business understanding je úvodní fází, ve které jde nejen o porozumění problematiky, ale i o správnou formulaci úlohy z manažerského hlediska. Rozlišují se různé typy úloh. Fáze dále zahrnuje inventuru zdrojů, hodnocení rizik, náklady vs. přínosy a stanovení předběžného plánu prací.
Typy úloh
Podívejme se teď na základní typy úloh:
- Klasifikace/predikce - Cílem této úlohy je nalezení
znalostí použitelných pro klasifikaci nových případů. Dává se přednost
přesnosti pokrytí na úkor jednoduchosti (připouští se tedy větší
množství méně srozumitelných dílčích znalostí
Zi
- viz obrázek níže). U predikce je důležitý čas - ze starších hodnot veličiny se odhaduje vývoj hodnot v budoucnosti. Jinými slovy chceme na trénovací množině dat předpovědět další neznámé objekty (např. vývoj cen akcií). - Deskripce (popis) - Při této úloze je zjišťována
dominantní struktura nebo vazba, která je skrytá v datech. Na výstupu jsou
požadovány srozumitelné znalosti
Zi
, pokrývající daný koncept (upřednostňuje se menší množství méně přesných znalostíZi
). Jinými slovy chceme získat povědomí o datech jako celku (např. analýza nákupního košíku zákazníka). - Hledání nugetů - Zde jsou na výstupu požadovány
nové, překvapivé či zajímavé znalosti
Zi
, které nemusí plně pokrývat daný koncept. Jinak řečeno chceme zjistit zajímavé odchylky od normálních hodnot (např. identifikace podvodného jednání).
Prohlédněme si grafické zobrazení výše uvedených typů úloh a zaměřme se na jejich odlišné parametry vůči danému konceptu:
Připomeňme si, že všechny úlohy lze nalézt v celé řadě aplikačních oblastí, například při:
- identifikaci chyb,
- predikci spotřeby elektrické energie,
- analýze příčin poruch v telekomunikačních sítích,
- analýze důvodů změny poskytovatele služeb,
- segmentaci a klasifikaci klientů pojišťovny,
- určení příčin poruch automobilů,
- rozboru databáze pacientů v nemocnici,
- potvrzení či vyvrácení statistických hypotéz.
2. Data understanding
Fáze Data understanding začíná prvotním sběrem dat a pokračuje činnostmi, které nám o nich umožní získat základní představu. Velmi klíčové je posouzení jejich kvality. Dále se stanovují různé deskriptivní charakteristiky (popisná statistika, jako např. četnosti hodnot různých atributů, průměrné hodnoty, minima, maxima...). K základnímu pochopení dat nám pomáhají i vizualizace, které bývají využívány v rámci jiných procesů obvykle až pro konečné výstupy.
3. Data preparation
Fáze Data preparation zahrnuje veškeré úkony vedoucí k vytvoření datového souboru, který následně zpracujeme jednotlivými analytickými metodami (resp. Data Mining technikami). Příprava dat zahrnuje selekci, čištění, transformaci, vytváření, integrování a formátování dat. Celá příprava dat bývá často nejpracnější částí celého procesu.
4. Modeling
Ve fázi Modeling dochází k samotnému dobývání znalostí pomocí analytických metod (resp. Data Mining technik) a tvoří se matematický model. K dispozici máme řadu metod/technik pro řešení dané úlohy, čili velká pozornost musí směřovat výběru té nejvhodnější. Obecně se doporučuje použití více metod/technik. V průběhu procesu může vzniknout potřeba modifikovat data, což znamená návrat k datovým transformacím z fáze Data Preparation. Součástí Modelingu může dále být i testování získaných znalostí na nezávislých datech.
5. Evaluation
Ve fázi Evaluation je proces ve stavu, kdy jsou k dispozici znalosti, které je ještě třeba vyhodnotit z manažerského pohledu (byly skutečně dosaženy cíle dané úlohy?). Závěrem fáze je potom rozhodnutí o způsobu využití výsledků.
6. Deployment
V Deployment fázi (konečné fázi) se již uvádí poznatky do praxe na základě rozhodnutí o způsobu využití výsledků (např. cílená reklamní kampaň). Ve většině případů je to zákazník (manažer, zadavatel), kdo provádí kroky vedoucí k využívání výsledků, proto je důležité správné pochopení závěru.
Podívejme se na celý procesní model CRISP_DM:
"
Mimo metodiku CRISP-DM můžeme ještě na závěr uvést kontrolní krok, zajišťující zpětnou vazbu na Deployment (např. jak efektivní byla cílená reklamní kampaň?) a případnou aktualizaci matematického modelu v čase.
Techniky Data Miningu
Jak jsme si výše popsali, samotné použití Data Mining technik přichází na řadu v analytickém kroku č. 3, avšak jedním z nejdůležitějších úkolů je samotný výběr správné analytické metody/ techniky, což následuje hned za obchodním krokem č. 1. Existuje řada Data Mining technik:
1. Statistika:
- kontingenční tabulka,
- regresní analýza,
- shluková analýza,
- diskriminační analýza,
- analýza rozptylu,
- faktorová analýza,
- bayesovská statistika.
2. Strojové učení:
- statistické metody - viz bod 1),
- symbolické metody umělé inteligence:
- rozhodovací stromy,
- principy případového usuzování (Case-Based Reasoning, CBR).
- subsymbolické metody umělé inteligence:
- neuronové sítě,
- bayesovské sítě,
- genetické algoritmy.
Blíže se s těmito Data Mining technikami seznámíme v dalších lekcích.
V příští lekci, Data Mining - Statistické metody, se obecně seznámíme s vybranými statistickými metodami.