POSLEDNÍ ŠANCE do 29. 8. 2025: Pracuj až o 60 % rychleji díky akreditovanému kurzu Specialista na AI. Nyní již od 0 Kč. Zjisti více:

Lekce 17 - Nástroje pro čištění dat Nové

V předchozí lekci, Statistická analýza v byznysu - Hypotézy a regrese, jsme se věnovali testování hypotéz a regresní analýze.

V dnešním tutoriálu Úvodu do datové analýzy se seznámíme s klíčovými nástroji pro čištění dat. Projdeme si tabulkové editory pro manuální kontrolu a základní úpravy, nástroj OpenRefine pro standardizaci dat pomocí výrazového jazyka GREL a filtrování dat pomocí faceted filtering. Nakonec se dotkneme dotazovacího jazyka SQL pro manipulaci s daty v relačních databázích.

Proč čistit data

Syrová data často obsahují duplicity, chybějící nebo nekonzistentní hodnoty a různé formáty, které mohou ovlivnit analýzu. V praxi často nějaké osoby např. vyplní dotazník několikrát, v některých položkách nebudeme mít vyplněné všechny hodnoty nebo budou data nekonzistentní (např. lidé vyplní město jako PRaha, P-10, Praha 10 a my hodnoty můžeme chtít sjednotit pod Praha, abychom podle nich mohli filtrovat).

Jak si čištění dat usnadnit

Formuláře, webové stránky a další metody sběru dat se vždy snažíme navrhovat tak, aby respondent mohl zadat jen co nejpřesnější data. To uděláme např. vyčleněním políček na ulici, město a PSČ namísto napsání adresy do jednoho pole nebo uvedením pevného seznamu zemí pro výběr země. V některých případech, např. při zadání města, by ale hodnot k výběru bylo příliš mnoho a proto respondent zadá libovolnou hodnotu. A často ji také zadá nekonzistentně.

Tabulkové editory

Začneme jako vždy tabulkovými editory. Excel nebo Google Sheets jsou ideální pro rychlou manuální kontrolu menších až středně velkých datasetů – souborů dat uspořádaných v řádcích a sloupcích. Krátce si představíme jejich hlavní funkce pro čištění.

Čištění dat v MS Excel - Úvod do datové analýzy a obchodního rozhodování

Na obrázku vidíme tabulku s daty zákazníků. Pokud byste si ji chtěli otevřít, je ke stažení v příloze na konci lekci. Můžeme si všimnout několika typických problémů:


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh za pouhých 475 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 27 článkům (27 lekcí) tohoto kurzu.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V tutoriálu datové analýzy si představíme nástroje na čištění dat jako jsou tabulkové editory, OpenRefine nebo SQL.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Rypáček
Avatar
Jan Rypáček
Aktivity