Lekce 16 - Čištění dat Nové
V minulé lekci, Nástroje pro čištění dat, jsme se seznámili s nástroji na čištění dat jako jsou tabulkové editory, OpenRefile nebo SQL.
V dnešním tutoriálu Úvodu do datové analýzy si na jednoduchém datasetu prakticky vyzkoušíme základní techniky čištění dat – tedy jak identifikovat chybějící hodnoty, odstranit duplicity, převést hodnoty do správného formátu a sjednotit zápis. Ukážeme si, jak tyto kroky provádět v Excelu i v Google Sheets.
Stažení datasetu s běžnými chybami
Přejděte nyní na konec lekce a stáhněte si pod ní přílohu s daty.
Budeme pracovat se souborem kontrola_dat.xlsx
, který obsahuje
následující typické problémy:
- Chybějící hodnoty – například prázdné buňky ve
sloupcích
Jméno
,Věk
neboMěsto
, - Duplicitní záznamy – například dva řádky se stejným ID a jménem,
- Chybné formáty – například věk zapsaný slovem (třicet) místo číslem,
- Nesrovnalosti v zápisu – například Brno a brno jako dva různé zápisy téhož města,
- Extrémní hodnoty – například věk 150, který výrazně překračuje běžné rozpětí.

Na tomto datasetu si postupně ukážeme, jak každou z těchto chyb detekovat a opravit. Budeme využívat filtry, podmíněné formátování a různé funkce či nástroje pro odebrání duplicit a sjednocení formátu.
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tutoriálu se budeme věnovat tématu čištění dat, tedy identifikaci a odstranění chyb při datové analýze.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.