POUZE NYNÍ: Získej až 80 % extra kreditů ZDARMA na náš interaktivní e-learning. Zjistit více.
NOVINKA: Staň se datovým analytikem od 0 Kč a získej jistotu práce, lepší plat a nové kariérní možnosti. Více informací:

Lekce 17 - Nástroje pro čištění dat

V předchozím kvízu, Kvíz - Metody a statistická analýza v byznysu, jsme si ověřili nabyté zkušenosti z předchozích lekcí.

V dnešním tutoriálu Úvodu do datové analýzy se seznámíme s klíčovými nástroji pro čištění dat. Projdeme si tabulkové editory pro manuální kontrolu a základní úpravy, nástroj OpenRefine pro standardizaci dat pomocí výrazového jazyka GREL a filtrování dat pomocí faceted filtering. Nakonec se dotkneme dotazovacího jazyka SQL pro manipulaci s daty v relačních databázích.

Proč čistit data

Syrová data často obsahují duplicity, chybějící nebo nekonzistentní hodnoty a různé formáty, které mohou ovlivnit analýzu. V praxi často nějaké osoby např. vyplní dotazník několikrát, v některých položkách nebudeme mít vypsané všechny hodnoty nebo budou data nekonzistentní (např. lidé vyplní město jako PRaha, P-10, Praha 10 a my hodnoty můžeme chtít sjednotit pod Praha, abychom podle nich mohli filtrovat).

Jak si čištění dat usnadnit

Formuláře, webové stránky a další metody sběru dat se vždy snažíme navrhovat tak, aby respondent mohl zadat jen co nejpřesnější data. Toho dosáhneme např. tím, že místo jednoho pole pro celou adresu vyčleníme samostatná políčka pro ulici, město a PSČ nebo že nabídneme pevný seznam zemí pro výběr. V některých případech, např. při volbě města, by však bylo hodnot k výběru příliš mnoho, a proto respondent zadává hodnotu libovolně, což často také vede k nekonzistentnosti.

Tabulkové editory

Začneme jako vždy tabulkovými editory. Excel nebo Google Sheets jsou ideální pro rychlou manuální kontrolu menších až středně velkých datasetů – souborů dat uspořádaných v řádcích a sloupcích. Krátce si představíme jejich hlavní funkce pro čištění.

Čištění dat v MS Excel - Úvod do datové analýzy a obchodního rozhodování

Na obrázku vidíme tabulku s daty zákazníků. Pokud byste si ji chtěli otevřít, je ke stažení v příloze na konci lekce. Můžeme si všimnout několika typických problémů:


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh a certifikátem za pouhých 1 350 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 45 článkům (31 lekcí, 7 praktických cvičení, 7 testů) tohoto kurzu.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V tutoriálu datové analýzy si představíme nástroje na čištění dat, jako jsou tabulkové editory, OpenRefine nebo SQL.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Rypáček
Avatar
Jan Rypáček
Aktivity