Lekce 17 - Nástroje pro čištění dat Nové
V předchozí lekci, Statistická analýza v byznysu - Hypotézy a regrese, jsme se věnovali testování hypotéz a regresní analýze.
V dnešním tutoriálu Úvodu do datové analýzy se seznámíme s klíčovými nástroji pro čištění dat. Projdeme si tabulkové editory pro manuální kontrolu a základní úpravy, nástroj OpenRefine pro standardizaci dat pomocí výrazového jazyka GREL a filtrování dat pomocí faceted filtering. Nakonec se dotkneme dotazovacího jazyka SQL pro manipulaci s daty v relačních databázích.
Proč čistit data
Syrová data často obsahují duplicity,
chybějící nebo nekonzistentní hodnoty a různé
formáty, které mohou ovlivnit analýzu. V praxi často nějaké osoby
např. vyplní dotazník několikrát, v některých položkách nebudeme mít
vyplněné všechny hodnoty nebo budou data nekonzistentní (např. lidé
vyplní město jako PRaha
, P-10
, Praha 10
a my hodnoty můžeme chtít sjednotit pod Praha
, abychom podle
nich mohli filtrovat).
Jak si čištění dat usnadnit
Formuláře, webové stránky a další metody sběru dat se vždy snažíme navrhovat tak, aby respondent mohl zadat jen co nejpřesnější data. To uděláme např. vyčleněním políček na ulici, město a PSČ namísto napsání adresy do jednoho pole nebo uvedením pevného seznamu zemí pro výběr země. V některých případech, např. při zadání města, by ale hodnot k výběru bylo příliš mnoho a proto respondent zadá libovolnou hodnotu. A často ji také zadá nekonzistentně.
Tabulkové editory
Začneme jako vždy tabulkovými editory. Excel nebo Google Sheets jsou ideální pro rychlou manuální kontrolu menších až středně velkých datasetů – souborů dat uspořádaných v řádcích a sloupcích. Krátce si představíme jejich hlavní funkce pro čištění.

Na obrázku vidíme tabulku s daty zákazníků. Pokud byste si ji chtěli otevřít, je ke stažení v příloze na konci lekci. Můžeme si všimnout několika typických problémů:
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tutoriálu datové analýzy si představíme nástroje na čištění dat jako jsou tabulkové editory, OpenRefine nebo SQL.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.