Oslav s námi Mezinárodní den čárových kódů a získej 90 % extra kreditů ZDARMA při nákupu od 1199 kreditů. Použij promo kód BARCODE90 pouze dnes!
NOVINKA: Získej 40 hodin praktických dovedností s AI – ZDARMA ke každému akreditovanému kurzu!

Lekce 16 - Čištění dat Nové

V minulé lekci, Nástroje pro čištění dat, jsme se seznámili s nástroji na čištění dat jako jsou tabulkové editory, OpenRefile nebo SQL.

V dnešním tutoriálu Úvodu do datové analýzy si na jednoduchém datasetu prakticky vyzkoušíme základní techniky čištění dat – tedy jak identifikovat chybějící hodnoty, odstranit duplicity, převést hodnoty do správného formátu a sjednotit zápis. Ukážeme si, jak tyto kroky provádět v Excelu i v Google Sheets.

Stažení datasetu s běžnými chybami

Přejděte nyní na konec lekce a stáhněte si pod ní přílohu s daty. Budeme pracovat se souborem kontrola_dat.xlsx, který obsahuje následující typické problémy:

  • Chybějící hodnoty – například prázdné buňky ve sloupcích Jméno, Věk nebo Město,
  • Duplicitní záznamy – například dva řádky se stejným ID a jménem,
  • Chybné formáty – například věk zapsaný slovem (třicet) místo číslem,
  • Nesrovnalosti v zápisu – například Brno a brno jako dva různé zápisy téhož města,
  • Extrémní hodnoty – například věk 150, který výrazně překračuje běžné rozpětí.
Chybový dataset - Úvod do datové analýzy a obchodního rozhodování

Na tomto datasetu si postupně ukážeme, jak každou z těchto chyb detekovat a opravit. Budeme využívat filtry, podmíněné formátování a různé funkce či nástroje pro odebrání duplicit a sjednocení formátu.


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh za pouhých 425 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 24 článkům (24 lekcí) tohoto kurzu.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V tutoriálu se budeme věnovat tématu čištění dat, tedy identifikaci a odstranění chyb při datové analýze.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Rypáček
Avatar
Jan Rypáček
Aktivity