NOVINKA: Získej 40 hodin praktických dovedností s AI – ZDARMA ke každému akreditovanému kurzu!

Lekce 17 - Transformace dat - Normalizace a standardizace Nové

V minulé lekci, Čištění dat, jsme se věnovali čištění dat, tedy identifikaci a odstranění chyb při datové analýze.

V dnešním tutoriálu Úvodu do datové analýzy se zaměříme na techniky normalizace a standardizace. Při analýze dat je důležité, abychom data mohli navzájem správně porovnávat. To nemusí být jednoduché, pokud mají různé sloupce různé rozsahy hodnot.

Normalizace

Normalizace je proces, který nám pomáhá upravit data tak, aby byla ve srovnatelném měřítku.

Představme si, že máme data o průměrné měsíční mzdě v různých krajích a zároveň průměrné náklady na bydlení v těchto krajích. Obě čísla jsou ve stejné měně, takže se nabízí je porovnat. Jsou ale v různém rozsahu – mzdy se pohybují třeba mezi 25 000 a 45 000 Kč, zatímco náklady na bydlení mezi 8 000 a 20 000 Kč. Abychom je mohli spravedlivě analyzovat, například při výpočtu dostupnosti bydlení, musíme je normalizovat do stejného rozsahu, třeba 01.

Normalizace nám umožní tato data sjednotit, abychom je mohli efektivněji analyzovat a porovnávat.

Min-Max normalizace

Nejčastěji používanou metodou normalizace je Min-Max normalizace. Ta převede všechny hodnoty v datech tak, aby nejmenší hodnota byla 0 a největší 1. Představme si, že máme sadu známek od 1 do 5. Min-Max normalizace by známku 1 převedla na 0, známku 5 na 1 a ostatní známky na hodnoty mezi 0 a 1 (např. známka 3 by byla 0,5). Tímto způsobem se všechna data sjednotí do stejného rozsahu. To je užitečné, když chceme porovnat hodnoty v jiném měřítku, např. s jinou školou, kde je hodnocení v procentech a také bychom jej sjednotili do 0 - 1.


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh za pouhých 450 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 25 článkům (25 lekcí) tohoto kurzu.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V tutoriálu datové analýzy se seznámíme s transformací dat pomocí normalizace a standardizace a s odlehlými hodnotami.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Rypáček
Avatar
Jan Rypáček
Aktivity