Lekce 7 - Data Mining - Vyhodnocení produkce odpadu - Příprava dat
V minulé lekci, Data Mining - Systémy pro dobývání znalostí z databází , jsme se seznámili se systémy pro dobývání znalostí z databází.
V tomto tutoriálu Data Miningu začneme pracovat na reálné úloze, na níž si vyzkoušíme teoretické základy z předchozích lekcí. V této úloze budeme vyhodnocovat data o produkci odpadů ve dvou rozdílných regionech. Naše znalosti si vyzkoušíme na skutečných datech, která publikovaly Ministerstvo životního prostředí ČR a Český statistický úřad. Data statisticky vyhodnotíme pomocí jazyka Python, resp. jeho knihovny Pandas.
Data Mining - Vyhodnocení produkce odpadu
V rámci této úlohy tedy využijeme techniky Data Miningu k určení existence statisticky průkazného rozdílu v produkci odpadu mezi zmíněnými regiony. Jak jsme si už řekli v této lekci, v rámci úlohy typu deskripce je obecně zjišťována dominantní struktura skrytá v datech. Na výstupu jsou požadovány srozumitelné znalosti, pokrývající daný koncept. Jinými slovy tak získáváme povědomí o datech jako celku. Postupovat budeme po krocích podle metodiky CRISP-DM. Reálná a aktuální data získáme z otevřených zdrojů, ze kterých vytvoříme dataset k testování v Pythonu. Pojďme na to.
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tomto tutoriálu si připravíme podklady pro reálnou úlohu o statistickém vyhodnocení dat produkce odpadu.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.