NOVINKA: Získej 40 hodin praktických dovedností s AI – ZDARMA ke každému akreditovanému kurzu!
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Lekce 11 - Nástroje pro čištění dat Nové

V minulé lekci, Metody a nástroje - Pokročilé analýzy a rozhodovací nástroje, jsme se zaměřili na preskriptivní analýzu a data mining - analytické metody, které hledají optimální řešení nebo objevují skryté vzorce v datech.

V dnešním tutoriálu Úvodu do datové analýzy se seznámíme s klíčovými nástroji pro čištění dat. Projdeme si tabulkové editory pro manuální kontrolu a základní úpravy, nástroj OpenRefine pro standardizaci dat pomocí výrazového jazyka GREL a filtrování dat pomocí faceted filtering. Nakonec se dotkneme dotazovacího jazyka SQL pro manipulaci s daty v relačních databázích.

Proč čistit data

Syrová data často obsahují duplicity, chybějící nebo nekonzistentní hodnoty a různé formáty, které mohou ovlivnit analýzu. V praxi často nějaké osoby např. vyplní dotazník několikrát, v některých položkách nebudeme mít vyplněné všechny hodnoty nebo budou data nekonzistentní (např. lidé vyplní město jako PRaha, P-10, Praha 10 a my hodnoty můžeme chtít sjednotit pod Praha, abychom podle nich mohli filtrovat).

Tabulkové editory

Začneme jako vždy tabulkovými editory. Excel nebo Google Sheets jsou ideální pro rychlou manuální kontrolu menších až středně velkých datasetů – souborů dat uspořádaných v řádcích a sloupcích. Krátce si představíme jejich hlavní funkce pro čištění.

Úvod do datové analýzy a obchodního rozhodování

Na obrázku vidíme tabulku s daty zákazníků. Můžeme si všimnout několika typických problémů:


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh za pouhých 175 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 14 článkům (14 lekcí) tohoto kurzu.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V tutoriálu datové analýzy si představíme nástroje na čištění dat jako jsou tabulkové editory, OpenRefile nebo SQL.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Rypáček
Avatar
Jan Rypáček
Aktivity