NOVINKA - Online rekvalifikační kurz Python programátor. Oblíbená a studenty ověřená rekvalifikace - nyní i online.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Lekce 1 - Data Mining - Úvod do problematiky

Vítejte v kurzu Data Miningu. V jeho rámci se naučíme rozumět vytěžování informací z různých databází. Zaměříme se nejprve na nutnou teorii a tu následně využijeme v praktickém projektu, který v rámci kurzu zpracujeme. Dozvíme se, jak se Data Mining v praxi využívá a jaké jsou možnosti, které nám poskytuje v různých oborech.

Předpoklady pro zvládnutí kurzu

Pro úspěšné absolvování kurzu je vhodná znalost databází (relační model). Nutná je také znalost některého programovacího jazyka, např. Pythonu. Výhodou bude také alespoň základní znalost statistiky a algoritmů strojového učení.

Co je Data Mining

Data Mining, česky řečeno dolování či vytěžování dat, je proces získávání užitečných informací z velkého množství dat nebo datových skladů. Rovněž jej chápeme jako analytickou součást dobývání znalostí z databází (knowledge discovery in databases, dále jen KDD). Tato dvě označení jsou obecně vnímána jako souznačná.

KDD definujeme jako netriviální extrakci implicitních (přímo nevyjádřených) dříve neznámých a potenciálně užitečných informací z dat. Často dochází k překryvu či záměně s termínem data science (datová věda), který svým rozsahem zahrnuje širší oblast problematiky. Data mining či KDD jsou pouze podmnožinou data science.

Stručná historie Data Miningu

O Data Miningu se jako o KDD začalo mluvit ve vědeckých kruzích počátkem 90. let v USA. Databázové technologie představovaly prostředek, jak uchovávat rozsáhlá data a vyhledávat v nich informace. Statistika pak představovala prostředek, jak modelovat a analyzovat závislosti v datech. Tyto disciplíny se vyvíjely nezávisle až do doby, kdy se rozsah automaticky sbíraných dat natolik zvětšil, že začínal uživatelům "přerůstat přes hlavu". Současně s tím také vznikla potřeba (a možnost) velká data využívat pro strategické řízení firem.

Proces KDD

Ze statistického úhlu pohledu na Data Mining mluvíme o hledání korelací, vzájemných vztahů nebo vzorů, stanovení trendů, popř. předpovědi budoucího vývoje. Na rozdíl od "prostého" použití statistických metod a metod strojového učení se v procesu KDD klade důraz na přípravu dat pro analýzu a na interpretaci výsledných znalostí. Při přípravě se obvykle z dat uložených ve složité struktuře např. datového skladu vytváří jedna tabulka, která obsahuje relevantní hodnoty atributů sledovaných objektů. Při interpretaci se potom nalezené znalosti hodnotí z pohledu koncového uživatele.

Podívejme nyní se grafické znázornění celého procesu KDD z technického úhlu pohledu tvořeného kroky: selekce, předzpracování, transformace, data mining a interpretace:

Proces dobývání znalostí z databází - Data mining v Pythonu

Uvědomme si, že v případě Data Miningu nejsou výsledkem procesu data, nýbrž konkrétní znalosti pro řešení specifikovaného reálného problému.

Specifikace reálného problému pro Data Mining

Impulzem pro zahájení procesu KDD je vždy reálný problém. V praxi se běžně stanovuje řešitelský tým, jehož členy jsou jak experti na data a na metody KDD, tak i experti na řešenou problematiku. Po specifikaci a formulaci reálného problému je třeba získat veškerá dostupná data, která mohou být použita pro jeho řešení, a dále posoudit jejich relevanci. Tento proces může zapříčinit i zpětné přeformulování samotného problému.

Podívejme se na grafické znázornění KDD z manažerského úhlu pohledu, tvořeného kroky: stanovení řešitelského týmu, specifikace problému, získání dat, výběr metod, předzpracování dat, data mining a interpretace.

Proces dobývání znalostí z databází dle Anand a kol., 1996 - Data mining v Pythonu
Metody analýzy dat

V rámci dobývání znalostí z databází je používána řada typů metod analýzy dat. Ve většině případů je k řešení konkrétní úlohy zapotřebí kombinovat více různých metod. Mezi používané typy metod patří např. klasifikační metody, různé klasické metody explorační analýzy dat, metody pro získávání asociačních pravidel, genetické algoritmy, rozhodovací stromy, Bayesovské sítě, neuronové sítě, hrubé množiny (rough sets) a metody vizualizace. Můžeme směle předpokládat, že v budoucnu dojde k vývoji dalších metod :-)

Příkladem reálného problému je třeba otázka nalezení skupin zákazníků internetového obchodu, kterým by bylo možno nabídnout speciální službu. U zákazníků internetového obchodu se může jednat třeba o zjištění, zda kupují zboží odpovídající určité formě životního stylu. Nalezené skupiny jsou pak interpretovány jako takzvané segmenty trhu. Výsledek procesu může mít podobu analytické zprávy, zapnutí monitorovacího programu, zahájení marketingové kampaně atd.

Business inteligence

Závěrem se ještě seznámíme s termínem business intelligence, což jsou dovednosti, znalosti, technologie, aplikace a postupy používané v podnikání pro strategická rozhodnutí. K tomu je využíván sběr, analýza a interpretace vnitrofiremních dat. Data Mining se od business intelligence liší v tom, že nejde znalosti či schopnosti per se, ale o proces vedoucí k získání obchodních poznatků k vyřešení problémů v podnikání.

Oblasti použití Data Miningu

Data Mining je využíván ve vědecké, komerční i veřejné sféře. Nárůst aplikací v oblasti Data Miningu zapříčinil vývoj různých druhů specializovaného software. Data Mining je možné aplikovat na jakýkoli typ dat. Ať už jsou to datové sklady, transakční databáze, relační databáze, multimediální databáze, prostorové databáze, databáze časových řad, World Wide Web... Vedoucími trhu jsou komerční aplikace SAS Enterprise Miner, SPSS Clementine a STATISTICA Data Miner.

Závěrem si pro konkrétní představu uvedeme typické příklady využití dat (aplikační oblasti) pro konkrétní subjekty. Jsou to například data o:

  • klientech, transakcích pro bankovní subjekty (např. rozpoznání problémových nebo naopak vysoce bonitních klientů),
  • klientech, volání, zprávách SMS/MMS pro telefonní operátory (např. analýza důvodů změny poskytovatele nějakých služeb),
  • nákupech v kamenných prodejnách a na e-shopech (např. automatické nabízení produktů, které se často kupují společně s jinými),
  • pohybech uživatelů na internetu pro policii (např. kampaň prevence kriminality) a pro soukromé společnosti (např. marketingové kampaně),
  • expresi genů pro vědeckou sféru,
  • provozech a provozních parametrech pro průmyslové společnosti (např. analýza příčin poruch automobilů),
  • vývoji akcií pro investiční společnosti (např. predikce vývoje kursů akcií).

V úvodu kurzu jsme si tedy představili Data Mining, jeho podstatu a účel. Teorie k této problematice je opravdu hodně a budeme se jí muset postupně probrat. Je však velmi důležitá a je nutné ji k úspěšnému zvládnutí tohoto kurzu dobře rozumět.

V příští lekci, Data Mining - Základní pojmy, se seznámíme se základními pojmy procesu Data mining.


 

Všechny články v sekci
Data mining v Pythonu
Přeskočit článek
(nedoporučujeme)
Data Mining - Základní pojmy
Článek pro vás napsala Aneta Siobos
Avatar
Uživatelské hodnocení:
33 hlasů
Autor se věnuje datové analýze.
Aktivity