Vydělávej až 160.000 Kč měsíčně! Akreditované rekvalifikační kurzy s garancí práce od 0 Kč. Více informací.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.
Avatar
Lu Kiss
Člen
Avatar
Lu Kiss:29.1.2017 21:00

Ahoj, mám jistý statistický soubor, kde n je cca 300 a jednotlivé n-i jsou v rozsahu 1 - 150000 a potřebuji to vynést do histogramu. To samozřejmě problém není, ale v tom grafu pak nic nevyčtete. Proto jsem tedy na osu y použil logaritmické měřítko, což taky ničemu nepomohlo. Nakonec jsem zkusil rozdělit data do intervalů, ale těch je hodně při takovém velkém souboru a výsledek je taky nic moc neříkající.

Jaké máte vy zkušenosti a co by jste doporučili? Díky

 
Odpovědět
29.1.2017 21:00
Avatar
coells
Tvůrce
Avatar
Odpovídá na Lu Kiss
coells:29.1.2017 21:23

Záleží na tom, co s těmi daty potřebuješ dělat?
Histogram je jen graf, musíš s daty zacházet tak, abys s nich vyčetl požadovanou informaci.

Log-scale na ose y je v histogramu obvykle nesmysl, to už musí být hodně dobrý důvod a hodně dat.
Kvantizace by měla pomoct sama o sobě, ti jí asi říkáš "rozdělit data do intervalů", někde jsi udělal chybu.

Místo grafu začni deskriptivní statistikou, MMM, IQR, rozptyl.
Potom boxplot pro ověření distribuce, použij jitter pro vizuální stanovení hustoty dat.
To ti pomůže najít transformaci dat, ať už vytvořením kvantizačních intervalů nebo k nalezení transformační funkce.

Pokud máš jen 300 vzorků a takový rozsah, tak se vyplatí začít logaritmickou transformací.
Místo histogramu n[i] můžeš udělat histogram log10(n[i]).

 
Nahoru Odpovědět
29.1.2017 21:23
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 2 zpráv z 2.