Lekce 7 - Databáze a tabulky

V minulé lekci, Datové formáty XML a SQL, jsme se věnovali nejrozšířenějším formátům pro datovou analýzu – XML a SQL.

V tomto tutoriálu si představíme databáze. Zaměříme se na základní strukturu databázových tabulek, jejich klíčové funkce, jako jsou primární a cizí klíče, různé datové typy a typy vztahů mezi tabulkami. Dále si ukážeme praktický příklad návrhu databáze pro e-shop.

Databáze

Databáze jsou komplexní aplikace, které nejčastěji fungují jako služby. Databáze na rozdíl od prostých datových souborů umožňují data nejen ukládat, ale také:

efektivně vyhledávat,
měnit databázovou strukturu,
kontrolovat správné vyplnění dat,
minimalizovat duplikaci,
bezpečný přístup více uživatelům současně,
přístup pod jménem a heslem,
další funkce.

Databáze vs. soubory

Databáze můžeme chápat jako nástavbu k souborům a slouží k pokročilejší práci s daty. Díky funkcím databáze může např. internetový obchod rychle najít uživatele podle e-mailu nebo produkt podle jeho ID, protože databáze si drží data vždy seřazená a nové položky si rychle zařadí tam, kam patří. Těchto funkcí bychom u prostého souboru dosahovali jen stěží.

Data ze souborů lze do databáze importovat a naopak data z databáze lze vyexportovat do souborů.

Typy databází

Podle typu můžeme databáze rozdělit na relační (tabulkové) a NoSQL (např. grafové nebo objektové). Pro datovou analýzu jsou klíčové relační databáze, kterým se budeme věnovat v této lekci.

Relační databáze

Relační databáze ukládají data ve formě tabulek s řádky a sloupci, jak to známe např. z Excelu. Jsou zde ovšem navíc definovány vztahy mezi jednotlivými tabulkami (od toho název relační). Patří mezi ně například MySQL, MS-SQL, Oracle nebo PostgreSQL. Těm se budeme podrobněji věnovat v celém samostatném kurzu.

Mysql databáze - Úvod do datové analýzy a obchodního rozhodování

Propojení databází s analytickými nástroji

Relační databáze jsou často propojeny s analytickými nástroji, jako jsou Tableau, Microsoft Power BI nebo specializované statistické programy. Toto propojení umožňuje vizualizaci a hlubší analýzu dat uložených v tabulkách. Díky tomu je možné snadno identifikovat trendy, vzorce a anomálie, což je klíčové pro informované rozhodování.

Tabulka

V relačních databázích jsou tabulky základními strukturami pro ukládání dat. Každá tabulka představuje konkrétní objekt nebo entitu, například zákazníky, produkty či objednávky. Tabulky jsou tvořeny sloupci a řádky. Tato struktura umožňuje efektivní organizaci a správu dat.

Níže vidíme databázovou tabulku bank_code, ukládající různé bankovní kódy, názvy bank a jejich SWIFT kód:

Mysql tabulka - Úvod do datové analýzy a obchodního rozhodování

Sloupce a datové typy

Sloupce představují jednotlivé vlastnosti nebo charakteristiky ukládaných objektů. Každý sloupec má jedinečný název a je definován konkrétním datovým typem, který určuje povahu ukládaných hodnot. Mezi běžné datové typy patří:

textové typy (např. jména, popisy),
číselné typy (např. množství, ceny),
datum a čas (např. datum narození, čas objednávky),
logické typy (např. pravda/nepravda).

Databáze pak sama hlídá, aby se do sloupce nemohl uložit jiný typ. Např. u příkladu výše by při pokusu o uložení textu do číselného kódu banky databáze vyvolala chybu a zabránila uložení celého řádku. Získáváme tím jistotu, že se omylem neuloží chybná hodnota, která by pokazila integritu dat. Správná volba datových typů pro sloupce je klíčová k zajištění integrity a konzistence dat.

Řádky (záznamy)

Řádky obsahují konkrétní data objektů uložených v tabulce. Každý řádek představuje jeden záznam a v jednotlivých sloupcích jsou zapsané jeho atributy.

V příkladu výše jeden řádek definuje kódy pro Komerční banku, další řádek pro ČSOB atd.

Klíče v databázových tabulkách

V relačních databázích jsou klíče zásadními prvky k zajištění integrity a propojení dat mezi tabulkami. Klíčem je jeden nebo více sloupců, jejichž hodnoty jednoznačně identifikují záznamy v tabulce nebo vytvářejí vazby mezi různými tabulkami. Použití klíčů umožňuje efektivní organizaci, vyhledávání a správu dat.

Primární klíče

Každá tabulka má obvykle jeden primární klíč. To je sloupec nebo kombinace sloupců, které jednoznačně identifikují každý záznam v tabulce. V databázi totiž můžeme mít typicky více Janů Nováků, a když chceme nějakého smazat, musíme je rozlišit. Hodnoty primárního klíče musí být jedinečné a nesmí být prázdné. Velmi často se používají umělé primární klíče, kdy databáze jednoduše přiřadí ke každému záznamu číselné ID o 1 vyšší, než je ID záznamu předchozího.

U příkladu výše vidíme, že k tomuto účelu slouží sloupec bank_code_id. Definování primárního klíče zajišťuje integritu dat a umožňuje efektivní vyhledávání a manipulaci s daty.

Cizí klíče

Cizí klíč je sloupec nebo sada sloupců v jedné tabulce, které odkazují na primární klíč v jiné tabulce. Tento odkaz vytváří vztah mezi dvěma tabulkami.

Uveďme si příklad. V praxi takto může mít např. produkt uložené ID kategorie, do které patří. Hrábě (tabulka produkty, řádek s produkt_id 847) tedy patří do zahradního nářadí (tabulka kategorie, řádek s kategorie_id 786). ID 786 bude potom pro hrábě cizí klíč do tabulky kategorií. Databáze pak díky nastavení cizího klíče na úrovni tabulek sama hlídá, aby kategorie s ID 786 existovala a hrábě nemohly patřit do neexistující kategorie.

Vztahy mezi tabulkami

V relačních databázích existují tři základní typy vztahů:

Jedna ku jedné (1:1): Každý záznam v první tabulce odpovídá přesně jednomu záznamu v tabulce druhé a naopak. Tento typ vztahu se používá, když je potřeba rozdělit data do dvou tabulek z důvodu bezpečnosti nebo pro lepší organizaci. Příkladem může být např. uživatel a nastavení. Každý uživatel má jedno nastavení, ale jedná se o dvě samostatné tabulky.
Jedna ku mnoha (1:N): Jeden záznam v první tabulce může být spojen s více záznamy v tabulce druhé. Tento vztah je nejběžnější a příkladem může být vztah mezi zákazníky a jejich objednávkami. Jeden zákazník má více objednávek. Jedna objednávka však vždy patří jen jednomu zákazníkovi.
Mnoho ku mnoha (M:N): Záznamy v jedné tabulce mohou být spojeny s více záznamy v tabulce druhé a naopak. Příkladem může být vztah mezi produktem a objednávkou, kde každý produkt může patřit do více objednávek a každá objednávka může mít více produktů. Tento vztah se implementuje pomocí třetí, a sice spojovací tabulky, která v každém řádku obsahuje po jednom cizím klíči z obou propojovaných tabulek. Příklad si ukážeme níže.

Správné definování těchto vztahů je klíčové pro efektivní návrh databáze a zajištění její integrity.

Návrh databáze pro e-shop

Pro lepší pochopení struktury databázových tabulek a jejich vzájemných vztahů si představme jednoduchý model databáze pro internetový obchod (e-shop). Prvně si ukažme vizuální databázový diagram:

Úvod do datové analýzy a obchodního rozhodování

Tabulky

Náš e-shop bude mít jen 4 databázové tabulky:

Zakaznici – Ukládá informace o registrovaných zákaznících.
Produkty – Obsahuje detaily o nabízeném zboží.
Objednavky – Zaznamenává jednotlivé objednávky provedené zákazníky.
ProduktyObjednavky – Vazební tabulka, jež propojuje objednávky s produkty.

V praxi by se do samostatných tabulek dostala ještě minimálně adresa, ale pro zjednodušení ji uložíme k zákazníkovi.

Sloupce a datové typy

Tabulky budou mít následující sloupce těchto typů:

Tabulka Zakaznici

Sloupec	Datový typ	Popis
ZakaznikID	INT	primární klíč
Jmeno	VARCHAR	jméno zákazníka
Prijmeni	VARCHAR	příjmení zákazníka
Email	VARCHAR	e-mailová adresa
Telefon	VARCHAR	telefonní číslo
Adresa	VARCHAR	poštovní adresa

Tabulka Produkty

Sloupec	Datový typ	Popis
ProduktID	INT	primární klíč
Nazev	VARCHAR	název produktu
Popis	TEXT	popis produktu
Cena	DECIMAL	aktuální cena produktu
SkladovaZasoba	INT	počet kusů na skladě

Tabulka Objednavky

Sloupec	Datový typ	Popis
ObjednavkaID	INT	primární klíč
ZakaznikID	INT	cizí klíč na Zákazníci
DatumObjednavky	DATETIME	datum a čas objednávky
Stav	VARCHAR	stav objednávky (např. 'Nová', 'Vyřízená')

Tabulka ProduktyObjednavky

Sloupec	Datový typ	Popis
ProduktyObjednavkyID	INT	primární klíč
ObjednavkaID	INT	cizí klíč na Objednávky
ProduktID	INT	cizí klíč na Produkty
Mnozstvi	INT	počet objednaných kusů
Cena	DECIMAL	cena za jednotku v době objednávky

Vztahy mezi tabulkami

A návrh databáze dokončeme definicí vztahů.

Mezi tabulkami Zakaznici a Objednavky bude klasický vztah 1:N (jeden zákazník může mít více objednávek, jedna objednávka patří vždy jednomu zákazníkovi). Vztah je realizován pomocí sloupce ZakaznikID v tabulce Objednavky, který obsahuje ID konkrétního zákazníka (primární klíč ZakaznikID v tabulce Zakaznici).
Objednavky a Produkty jsou propojeny vztahem M:N (jedna objednávka může obsahovat více produktů a jeden produkt může patřit do více objednávek). Je zde tedy využita další propojovací tabulka ProduktyObjednavky, kde jsou uložené primární klíče položek, které se propojují (ObjednavkaID a ProduktId). Navíc zde máme množství a znovu cenu, protože se na objednávce může lišit od aktuální ceny produktu.

Tento model umožňuje efektivní ukládání informací o zákaznících, produktech a jejich objednávkách, přičemž minimalizuje redundanci dat a zajišťuje jejich integritu.

Práci s databázemi si vyzkoušíme prakticky ve specializovaném kurzu.

V další lekci, Data Lifecycle a metody sběru dat, se seznámíme s procesem, kterým procházejí data při datové analýze, a přiblížíme si metodu sběru dat.

Článek pro vás napsal Jan Rypáček

Uživatelské hodnocení:

92 hlasů

Jan Rypáček

Aktivity

Nejčastěji vyhledáváné

Lekce 7 - Databáze a tabulky

Databáze

Databáze vs. soubory

Typy databází

Relační databáze

Propojení databází s analytickými nástroji

Tabulka

Sloupce a datové typy

Řádky (záznamy)

Klíče v databázových tabulkách

Primární klíče

Cizí klíče

Vztahy mezi tabulkami

Návrh databáze pro e-shop

Tabulky

Sloupce a datové typy

Vztahy mezi tabulkami