Lekce 11 - Nástroje pro čištění dat Nové
V minulé lekci, Metody a nástroje - Pokročilé analýzy a rozhodovací nástroje, jsme se zaměřili na preskriptivní analýzu a data mining - analytické metody, které hledají optimální řešení nebo objevují skryté vzorce v datech.
V dnešním tutoriálu Úvodu do datové analýzy se seznámíme s klíčovými nástroji pro čištění dat. Projdeme si tabulkové editory pro manuální kontrolu a základní úpravy, nástroj OpenRefine pro standardizaci dat pomocí výrazového jazyka GREL a filtrování dat pomocí faceted filtering. Nakonec se dotkneme dotazovacího jazyka SQL pro manipulaci s daty v relačních databázích.
Proč čistit data
Syrová data často obsahují duplicity,
chybějící nebo nekonzistentní hodnoty a různé
formáty, které mohou ovlivnit analýzu. V praxi často nějaké osoby
např. vyplní dotazník několikrát, v některých položkách nebudeme mít
vyplněné všechny hodnoty nebo budou data nekonzistentní (např. lidé
vyplní město jako PRaha
, P-10
, Praha 10
a my hodnoty můžeme chtít sjednotit pod Praha
, abychom podle
nich mohli filtrovat).
Tabulkové editory
Začneme jako vždy tabulkovými editory. Excel nebo Google Sheets jsou ideální pro rychlou manuální kontrolu menších až středně velkých datasetů – souborů dat uspořádaných v řádcích a sloupcích. Krátce si představíme jejich hlavní funkce pro čištění.
Na obrázku vidíme tabulku s daty zákazníků. Můžeme si všimnout několika typických problémů:
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tutoriálu datové analýzy si představíme nástroje na čištění dat jako jsou tabulkové editory, OpenRefile nebo SQL.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.