Lekce 7 - Data Lifecycle a metody sběru dat Nové
V předchozí lekci, Databáze a tabulky, jsme se seznámili se základní strukturou databázových tabulek.
V tomto tutoriálu datové analýzy se seznámíme s pojmem Data Lifecycle. Ten popisuje kompletní životní cyklus dat od jejich vzniku a sběru přes zpracování a analýzu až po archivaci nebo likvidaci. Věnovat se budeme tradičním i moderním metodám sběru dat, vysvětlíme si některé pojmy, které se v této oblasti používají (např. web scraping, API, IoT), a ukážeme si, co vše musíme zohlednit z hlediska legislativy, etiky i bezpečnosti.
Data Lifecycle
Životní cyklus dat obvykle zahrnuje několik na sebe navazujících fází. Jako datoví analytici v každé z těchto fází uplatňujeme trochu jinou sadu dovedností a nástrojů:
- Stanovení cílů – Určíme, které ukazatele sledujeme a co chceme z dat zjistit (např. předpovídat poptávku, pochopit nákupní chování nebo detekovat anomálie ve výrobě).
- Sběr dat – Zjišťujeme, jak data získat (dotazníky, databáze, API, IoT senzory), a posuzujeme kvalitu i dostupnost různých zdrojů.
- Čištění a úprava – Kontrolujeme konzistenci, odstraňujeme chybné či duplicitní záznamy a převádíme formáty do podoby vhodné k další analýze.
- Analýza a interpretace – Využíváme statistické metody, vizualizace či modely strojového učení, abychom z dat vytěžili užitečné poznatky.
- Prezentace výsledků – Připravujeme reporty, dashboardy nebo doporučení pro rozhodování.
- Archivace či odstranění – Uchováváme data, která mohou posloužit i v budoucnu, a zároveň se zbavujeme záznamů, jež už nepotřebujeme, abychom si udrželi přehled a splnili právní požadavky (např. GDPR).
Díky ucelenému pohledu na data si dokážeme lépe naplánovat jednotlivé kroky a zohlednit všechny důležité aspekty – od zabezpečení a kvality dat až po jejich dlouhodobou hodnotu pro firmu či výzkumný tým. V našem kurzu si jednotlivé kroky postupně představíme. Dnes se zaměříme na samotný sběr dat.
Sběr dat
Než se pustíme do metod sběru, sestavíme si stručný plán – jaké informace hledáme, jak je získáme, jak ověříme jejich kvalitu a jak s nimi budeme pracovat dál. Připravíme si seznam potenciálních zdrojů (interní databáze, externí API, senzory atd.) a vybereme vhodné technologie k extrakci a ukládání dat. Jako datoví analytici zároveň zvažujeme, nakolik je datová struktura kompatibilní s našimi nástroji a jak složité bude data dále zpracovávat. Pečlivým plánováním se vyhneme zbytečným zpožděním, chybným formátům či komplikacím při analýze.
Metody sběru dat
Jakmile určíme, co a proč chceme zkoumat, následuje klíčový výběr správné metody sběru dat.
Tradiční postupy
Tradiční přístupy, jako jsou dotazníky, ankety či pozorování v terénu, mají nižší technologické nároky, takže jsou vhodné pro menší týmy nebo rychlé pilotní studie. Při tvorbě dotazníků si dáváme pozor na jasné a srozumitelné otázky, aby respondenti poskytli relevantní odpovědi. U rozhovorů a fokusních skupin záleží na schopnosti moderátora vést diskuzi a neztrácet se v nepodstatných detailech. Pozorování pak využíváme v situacích, kdy chceme zaznamenávat chování lidí či procesů bez přímého zásahu. Tato metoda ale vyžaduje pečlivé protokolování a často i vyšší míru subjektivního posouzení.
Automatizovaný sběr z digitálních zdrojů
V moderní datové analytice se většinou neobejdeme bez automatizovaných technik, které jsou rychlé a minimalizují lidské chyby. Patří sem:
- Interní databáze a analytické aplikace – Nejjednodušší je samozřejmě zpracovávat data, která již máme lokálně uložená (např. v databázi našeho e-shopu) nebo k nimž máme přístup. Pomocí specializovaných nástrojů, jako jsou Google Analytics, Snowplow nebo Hotjar, můžeme sbírat a vyhodnocovat chování zákazníků včetně informací typu, jak např. lidé pohybují po stránce myší apod. Zákazníkům také můžeme snadno zobrazit dotazník k vyplnění, např. pomocí Google Forms, a automaticky získat shrnutí výsledků. Analyzovat můžeme rovněž nejrůznější logy, což jsou záznamy o provedených akcích, např. chybách nebo vytížení webu.
- Otevřená externí data a API (Application Programming Interface) – Z webu Českého statistického úřadu si můžeme stáhnout Excel soubory nebo použít výsledky veřejného dotazníku. API jsou rozhraní partnerů a veřejných služeb poskytující přístup k datům a funkcím. Například pokud náš dodavatel materiálu nabízí API, můžeme z něj stahovat aktuální informace o produktech, cenách a skladových zásobách.
- Web scraping – Je technika sběru dat přímo z webových stránek, kdy program (tzv. scraper) prochází obsah a ukládá vybrané informace (například cenu zboží, hodnocení produktů, textové články). Pro web scraping lze použít různé nástroje (např. Beautiful Soup, Selenium, Scrapy), které umožňují data extrahovat a dále zpracovávat.
- Komerční datové balíčky a datová tržiště – Placená data od firem, která se zakoupí hotová s licencí (např. česká databáze firem Merk).
Jako datoví analytici u automatizovaného sběru definujeme filtry, abychom získávali skutečně relevantní data a abychom předešli zahlcení nepotřebnými informacemi.
Senzory a IoT technologie
V mnoha oblastech (průmysl, logistika, chytré domácnosti, zemědělství) je důležitým zdrojem dat internet věcí (IoT), tedy síť chytrých zařízení a senzorů. Síť měří různé veličiny (teplota, tlak, poloha, vlhkost) a odesílá je v reálném čase k dalšímu zpracování. Pro datového analytika to znamená potřebu:
- zajištění správné konfigurace a kalibrace senzorů, aby měřily přesně,
- výběru vhodné komunikační technologie (Wi-Fi, Bluetooth apod.) pro přenos naměřených hodnot,
- řešení spolehlivosti připojení, výpadků a případných zpoždění v datech,
- ukládání a zpracování velkého objemu dat v reálném čase či v krátkých intervalech.
Tyto kroky často vyžadují specializované nástroje a větší investice do hardwaru, ale odměnou je detailní a kontinuální pohled na sledované jevy.
Externí zdroje a jejich kvalita
Ne vždy však máme k dispozici vlastní data – v praxi se často hodí využít open data (volně dostupné zdroje), placené databáze nebo API dalších organizací. Předtím než data integrujeme do našeho systému, se vyplatí otestovat:
- Strukturu a formát – Odpovídá JSON, XML nebo CSV našim potřebám?
- Aktuálnost a přesnost – Jak pravidelně je zdroj aktualizován, jsou v něm časté chyby?
- Licenční a právní omezení – Lze data použít ke komerčním účelům? Je nutné uvádět zdroj?
- Metodiku sběru – Jak data vznikla, jsou reprezentativní a neskrývají zkreslení?
Díky důkladné kontrole předejdeme situaci, kdy bychom pracovali s nepoužitelným nebo zavádějícím datasetem.
Ochrana osobních údajů a etika
S jakýmkoli sběrem dat se pojí i zodpovědnost za ochranu citlivých informací. V praxi to znamená důsledně aplikovat principy GDPR a dalších legislativních předpisů, ale také mít interní směrnice pro anonymizaci či pseudonymizaci záznamů. Etické hledisko je stejně důležité jako to právní – sbíráme jen taková data, která opravdu potřebujeme a která dokážeme ochránit před zneužitím. Je-li to nutné, uživatelům musí být poskytnut přehled o tom, jaká data o nich evidujeme, případně možnost svůj souhlas odvolat.
V příští lekci, Ukládání a archivace dat, si vysvětlíme, co je ukládání a archivace dat, a ukážeme si rozdíl mezi aktivní prací s daty a jejich dlouhodobým uchováváním.