Lekce 7 - Data Lifecycle a metody sběru dat Nové

V předchozí lekci, Databáze a tabulky, jsme se seznámili se základní strukturou databázových tabulek.

V tomto tutoriálu datové analýzy se seznámíme s pojmem Data Lifecycle. Ten popisuje kompletní životní cyklus dat od jejich vzniku a sběru přes zpracování a analýzu až po archivaci nebo likvidaci. Věnovat se budeme tradičním i moderním metodám sběru dat, vysvětlíme si některé pojmy, které se v této oblasti používají (např. web scraping, API, IoT), a ukážeme si, co vše musíme zohlednit z hlediska legislativy, etiky i bezpečnosti.

Data Lifecycle

Životní cyklus dat obvykle zahrnuje několik na sebe navazujících fází. Jako datoví analytici v každé z těchto fází uplatňujeme trochu jinou sadu dovedností a nástrojů:

Stanovení cílů – Určíme, které ukazatele sledujeme a co chceme z dat zjistit (např. předpovídat poptávku, pochopit nákupní chování nebo detekovat anomálie ve výrobě).
Sběr dat – Zjišťujeme, jak data získat (dotazníky, databáze, API, IoT senzory), a posuzujeme kvalitu i dostupnost různých zdrojů.
Čištění a úprava – Kontrolujeme konzistenci, odstraňujeme chybné či duplicitní záznamy a převádíme formáty do podoby vhodné k další analýze.
Analýza a interpretace – Využíváme statistické metody, vizualizace či modely strojového učení, abychom z dat vytěžili užitečné poznatky.
Prezentace výsledků – Připravujeme reporty, dashboardy nebo doporučení pro rozhodování.
Archivace či odstranění – Uchováváme data, která mohou posloužit i v budoucnu, a zároveň se zbavujeme záznamů, jež už nepotřebujeme, abychom si udrželi přehled a splnili právní požadavky (např. GDPR).

Úvod do datové analýzy a obchodního rozhodování

Díky ucelenému pohledu na data si dokážeme lépe naplánovat jednotlivé kroky a zohlednit všechny důležité aspekty – od zabezpečení a kvality dat až po jejich dlouhodobou hodnotu pro firmu či výzkumný tým. V našem kurzu si jednotlivé kroky postupně představíme. Dnes se zaměříme na samotný sběr dat.

Sběr dat

Než se pustíme do metod sběru, sestavíme si stručný plán – jaké informace hledáme, jak je získáme, jak ověříme jejich kvalitu a jak s nimi budeme pracovat dál. Připravíme si seznam potenciálních zdrojů (interní databáze, externí API, senzory atd.) a vybereme vhodné technologie k extrakci a ukládání dat. Jako datoví analytici zároveň zvažujeme, nakolik je datová struktura kompatibilní s našimi nástroji a jak složité bude data dále zpracovávat. Pečlivým plánováním se vyhneme zbytečným zpožděním, chybným formátům či komplikacím při analýze.

Metody sběru dat

Jakmile určíme, co a proč chceme zkoumat, následuje klíčový výběr správné metody sběru dat.

Tradiční postupy

Tradiční přístupy, jako jsou dotazníky, ankety či pozorování v terénu, mají nižší technologické nároky, takže jsou vhodné pro menší týmy nebo rychlé pilotní studie. Při tvorbě dotazníků si dáváme pozor na jasné a srozumitelné otázky, aby respondenti poskytli relevantní odpovědi. U rozhovorů a fokusních skupin záleží na schopnosti moderátora vést diskuzi a neztrácet se v nepodstatných detailech. Pozorování pak využíváme v situacích, kdy chceme zaznamenávat chování lidí či procesů bez přímého zásahu. Tato metoda ale vyžaduje pečlivé protokolování a často i vyšší míru subjektivního posouzení.

Automatizovaný sběr z digitálních zdrojů

web scraping - Úvod do datové analýzy a obchodního rozhodování

V moderní datové analytice se většinou neobejdeme bez automatizovaných technik, které jsou rychlé a minimalizují lidské chyby. Patří sem:

Interní databáze a analytické aplikace – Nejjednodušší je samozřejmě zpracovávat data, která již máme lokálně uložená (např. v databázi našeho e-shopu) nebo k nimž máme přístup. Pomocí specializovaných nástrojů, jako jsou Google Analytics, Snowplow nebo Hotjar, můžeme sbírat a vyhodnocovat chování zákazníků včetně informací typu, jak např. lidé pohybují po stránce myší apod. Zákazníkům také můžeme snadno zobrazit dotazník k vyplnění, např. pomocí Google Forms, a automaticky získat shrnutí výsledků. Analyzovat můžeme rovněž nejrůznější logy, což jsou záznamy o provedených akcích, např. chybách nebo vytížení webu.
Otevřená externí data a API (Application Programming Interface) – Z webu Českého statistického úřadu si můžeme stáhnout Excel soubory nebo použít výsledky veřejného dotazníku. API jsou rozhraní partnerů a veřejných služeb poskytující přístup k datům a funkcím. Například pokud náš dodavatel materiálu nabízí API, můžeme z něj stahovat aktuální informace o produktech, cenách a skladových zásobách.
Web scraping – Je technika sběru dat přímo z webových stránek, kdy program (tzv. scraper) prochází obsah a ukládá vybrané informace (například cenu zboží, hodnocení produktů, textové články). Pro web scraping lze použít různé nástroje (např. Beautiful Soup, Selenium, Scrapy), které umožňují data extrahovat a dále zpracovávat.
Komerční datové balíčky a datová tržiště – Placená data od firem, která se zakoupí hotová s licencí (např. česká databáze firem Merk).

Jako datoví analytici u automatizovaného sběru definujeme filtry, abychom získávali skutečně relevantní data a abychom předešli zahlcení nepotřebnými informacemi.

Senzory a IoT technologie

V mnoha oblastech (průmysl, logistika, chytré domácnosti, zemědělství) je důležitým zdrojem dat internet věcí (IoT), tedy síť chytrých zařízení a senzorů. Síť měří různé veličiny (teplota, tlak, poloha, vlhkost) a odesílá je v reálném čase k dalšímu zpracování. Pro datového analytika to znamená potřebu:

zajištění správné konfigurace a kalibrace senzorů, aby měřily přesně,
výběru vhodné komunikační technologie (Wi-Fi, Bluetooth apod.) pro přenos naměřených hodnot,
řešení spolehlivosti připojení, výpadků a případných zpoždění v datech,
ukládání a zpracování velkého objemu dat v reálném čase či v krátkých intervalech.

Tyto kroky často vyžadují specializované nástroje a větší investice do hardwaru, ale odměnou je detailní a kontinuální pohled na sledované jevy.

IoT technologie - Úvod do datové analýzy a obchodního rozhodování

Externí zdroje a jejich kvalita

Ne vždy však máme k dispozici vlastní data – v praxi se často hodí využít open data (volně dostupné zdroje), placené databáze nebo API dalších organizací. Předtím než data integrujeme do našeho systému, se vyplatí otestovat:

Strukturu a formát – Odpovídá JSON, XML nebo CSV našim potřebám?
Aktuálnost a přesnost – Jak pravidelně je zdroj aktualizován, jsou v něm časté chyby?
Licenční a právní omezení – Lze data použít ke komerčním účelům? Je nutné uvádět zdroj?
Metodiku sběru – Jak data vznikla, jsou reprezentativní a neskrývají zkreslení?

Díky důkladné kontrole předejdeme situaci, kdy bychom pracovali s nepoužitelným nebo zavádějícím datasetem.

Ochrana osobních údajů a etika

S jakýmkoli sběrem dat se pojí i zodpovědnost za ochranu citlivých informací. V praxi to znamená důsledně aplikovat principy GDPR a dalších legislativních předpisů, ale také mít interní směrnice pro anonymizaci či pseudonymizaci záznamů. Etické hledisko je stejně důležité jako to právní – sbíráme jen taková data, která opravdu potřebujeme a která dokážeme ochránit před zneužitím. Je-li to nutné, uživatelům musí být poskytnut přehled o tom, jaká data o nich evidujeme, případně možnost svůj souhlas odvolat.

V příští lekci, Ukládání a archivace dat, si vysvětlíme, co je ukládání a archivace dat, a ukážeme si rozdíl mezi aktivní prací s daty a jejich dlouhodobým uchováváním.

Článek pro vás napsal Jan Rypáček

Uživatelské hodnocení:

8 hlasů

Jan Rypáček

Aktivity

Nejčastěji vyhledáváné