Lekce 17 - Transformace dat - Normalizace a standardizace Nové
V minulé lekci, Čištění dat, jsme se věnovali čištění dat, tedy identifikaci a odstranění chyb při datové analýze.
V dnešním tutoriálu Úvodu do datové analýzy se zaměříme na techniky normalizace a standardizace. Při analýze dat je důležité, abychom data mohli navzájem správně porovnávat. To nemusí být jednoduché, pokud mají různé sloupce různé rozsahy hodnot.
Normalizace
Normalizace je proces, který nám pomáhá upravit data tak, aby byla ve srovnatelném měřítku.
Představme si, že máme data o průměrné měsíční
mzdě v různých krajích a zároveň průměrné náklady na
bydlení v těchto krajích. Obě čísla jsou ve stejné měně,
takže se nabízí je porovnat. Jsou ale v různém rozsahu – mzdy se
pohybují třeba mezi 25 000 a 45 000 Kč, zatímco náklady na bydlení mezi 8
000 a 20 000 Kč. Abychom je mohli spravedlivě analyzovat,
například při výpočtu dostupnosti bydlení, musíme je
normalizovat do stejného rozsahu, třeba 0
až
1
.
Normalizace nám umožní tato data sjednotit, abychom je mohli efektivněji analyzovat a porovnávat.
Min-Max normalizace
Nejčastěji používanou metodou normalizace je Min-Max
normalizace. Ta převede všechny hodnoty v datech tak, aby
nejmenší hodnota byla 0
a
největší 1
. Představme si, že máme sadu
známek od 1 do 5. Min-Max normalizace by známku 1
převedla na
0
, známku 5
na 1
a ostatní známky na
hodnoty mezi 0
a 1
(např. známka 3
by
byla 0,5
). Tímto způsobem se všechna data sjednotí do
stejného rozsahu. To je užitečné, když chceme porovnat hodnoty v
jiném měřítku, např. s jinou školou, kde je hodnocení v procentech a
také bychom jej sjednotili do 0
- 1
.
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tutoriálu datové analýzy se seznámíme s transformací dat pomocí normalizace a standardizace a s odlehlými hodnotami.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.