NOVINKA - Online rekvalifikační kurz Python programátor. Oblíbená a studenty ověřená rekvalifikace - nyní i online.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Lekce 1 - Pandas - Představení knihovny

V tomto kurzu jazyka Python se zaměříme na knihovnu Pandas. Nejprve si vysvětlíme její účel a naučíme se, jak knihovnu Pandas nainstalovat. Vysvětlíme si, jak v ní vyrobit vlastní dataset nebo vložit dataset cizí. Ukážeme si také, jak pomocí této knihovny dokážeme udělat jednoduchou statistickou analýzu našich dat. V neposlední řadě si necháme vyrobit také pěkné grafy.

Předpoklady pro zvládnutí kurzu

Pro úspěšné absolvování kurzu je nutná znalost jazyka Python nejméně v rozsahu kurzu Základní konstrukce jazyka Python. Výhodou je alespoň základní orientace ve statistice.

Co je Pandas?

Pandas je knihovna programovacího jazyka Python 3, která se používá pro práci s datasety. Název je vlastně slovní hříčkou, která může znamenat jak "Panel Data", tak "Python Data Analysis".

K čemu je Pandas?

Knihovna Pandas se používá pro statistickou práci s daty. Řekněme, že máme větší objem dat. Pandas je řešením, když z něj potřebujeme vytěžit konkrétní informace. Můžeme je pak seřadit na základě hodnot a třeba je i očistit o špatná a prázdná pole. S pomocí Pandas můžeme třeba seřadit světové národy podle výšky, vytvořit graf závislosti druhů ptáků na typech lesa, případně spočítat naši průměrnou měsíční útratu za nějaký typ zboží.

Pandas vs R

Pokud už máme se statistikou nějaké zkušenosti, nejspíš už jsme se setkali s programovacím jazykem R. "Erko" je oblíbená freewarová alternativa používaná ve všech možných sférách, ať už ve finančnictví nebo třeba ve vědecké sféře. Tento komplexní jazyk zabývající se téměř výhradně statistikou má daleko rozsáhlejší možnosti, než Pandas. Proč tedy použít Pandas? Důvod je v podstatě stejný, jako proč používat Python samotný. Pandas je uživatelsky daleko přívětivější a naučit se s touto knihovnou pracovat trvá výrazně kratší dobu, než s jazykem R.

Knihovny spolupracující s Pandas

V programovacím jazyce označuje knihovna soubor funkcí, které už někdo přichystal před námi a uložil je do proměnných v rámci konkrétní knihovny. V praxi nám to ušetří spoustu času a řádků v kódu, neboť nemusíme psát celou funkci znovu. Stačí nám zavolat si konkrétní funkci z konkrétní knihovny. Pandas je samostatnou knihovnou, ale abychom plně ocenili její funkce, je dobré při práci s ní využít ještě několika dalších knihoven.

NumPy

Numpy je knihovna, která nám v Pythonu umožňuje efektivně vykonávat matematické operace na velkých objemech dat, včetně těch vícerozměrných. Důležité je také podotknout, že celá knihovna Pandas stojí na knihovně NumPy.

MatPlotLib

Knihovnu MatPlotLib využijeme ve chvíli, kdy budeme chtít naše výsledky vizualizovat. Umožní nám vytvořit celou škálu grafů, od korelačního diagramu scatterplotu, přes histogram a krabicový graf boxplot, až po složitější systémy souřadnic. Rovněž dokáže tyto vizualizace barevně upravovat, zoomovat, případně umí i upravit jejich škálu.

Ostatní

Kromě výše zmíněných knihoven existuje celá řada dalších, které mají podobné funkce, či rozšiřují možnosti naší práce s Pandas jiným směrem. Například knihovna Statsmodels prohlubuje statistické funkce Pandas. Knihovny Altair, Bokeh a Plotly zase rozšiřují vizualizační možnosti. V tomto kurzu se jimi však nebudeme zabývat.

Instalace Pandas

Instalace knihovny Pandas je velice snadná. Můžeme si zvolit jednu ze dvou níže popsaných metod - buď pomocí PIP nebo pomocí programu Anaconda.

Instalace pomocí PIP

Pokud již máme nainstalovaný Python 3 a PIP, stačí do příkazové řádky napsat text níže:

pip install Pandas

Po chvilce čekání bude knihovna Pandas přidána do našeho Pythonu. Stejným způsobem následně nainstalujeme obě knihovny, které využijeme v tomto kurzu. Nejprve NumPy:

pip install Numpy

A následně Matplotlib:

pip install Matplotlib

Instalace pomocí Anacondy

Pro začátečníky je tato varianta instalace jednodušší, neboť skrz Anacondu můžeme do našeho Pythonu stáhnout i další užitečné knihovny a programy. Na stránce Anaconda.com si stáhneme verzi pro náš operační systém. Verze jsou dostupné pro Windows, MacOS i Linux. Následně program spustíme a zahájíme instalaci. Vybereme složku, kam Anacondu stáhneme a necháme všechna zaškrtávací políčka v defaultním stavu. Políčko Add anaconda to my PATH environment variable chceme ponechat nezaškrtnuté. Po dokončení instalace máme Pandas v našem Pythonu připravený k práci.

Pandas a Jupyter Notebook

Jedním z nejoblíbenějších prostředí pro práci s Pandas je Jupyter Notebook. Jedná se o aplikaci využívající prostředí prohlížeče, do které píšeme svůj kód v Pythonu. Prostředí, jak už název napovídá, skutečně připomíná poznámkový blok a je uživatelsky velice přívětivé. V Jupyter Notebooku budeme s pomocí Pandas knihovny tvořit seznamy, tabulky i grafy.

Jupyter Notebook nainstalujeme také pomocí PIP:

pip install notebook

Vytvoření projektu

Jupyter Notebook si spustíme buď skrz příkazovou řádku nebo Anacondu. Pro otevření příkazového řádku stačí v počítači vyhledat cmd a kliknout na něj. Jakmile se nám příkazový řádek otevře, zadáme do něj:

python -m notebook

Po pár sekundách se nám Jupyter Notebook otevře jako nová záložka v prohlížeči.

Pokud jsme si stáhli Anacondu, můžeme Jupyter Notebook také otevřít pomocí aplikace Anaconda Navigator. Po spuštění Anacondy si v hlavním menu aplikace najdeme dlaždici Jupyter Notebook a klikneme na Launch. Opět se nám objeví nová záložka v našem prohlížeči:

Jupyter Notebook prostředí - Pandas - Vizualizace dat v Pythonu

Nyní si vytvoříme nový projekt. V pravém horním rohu klikneme na New, čímž se nám rozbalí lišta. Hned jako první máme možnost Python 3. Tu vybereme a otevře se nám nový projekt:

Nový projekt - Pandas - Vizualizace dat v Pythonu

Importování Pandas

V samotném Pythonu poté na začátku našeho kódu importujeme Pandas pomocí import. Tradičně se Pandas importuje pod zkratkou pd, pro práci to však není podmínkou. Spolu s Pandas si importujeme obě knihovny, NumPy jako np a z knihovny MatPlotlib si importujeme podmodul pyplot obsahující všechny pro nás důležité funkce. Podmodul má tradičně zkratku plt:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

Stiskem kláves Shift + Enter potvrdíme import knihoven. V tuto chvíli náš Jupyter Notebook vypadá takto a my jsme připraveni s ním začít pracovat:

Nový projekt v Jupyter Notebook - Pandas - Vizualizace dat v Pythonu

Knihovnu i pracovní prostředí tedy máme připravené a můžeme se pustit do práce. Pro tuto lekci je to ale vše.

V příští lekci, Pandas - Tvorba vlastního datasetu, se dozvíme, jak v Pandas vytvořit vlastní dataset.


 

Všechny články v sekci
Pandas - Vizualizace dat v Pythonu
Přeskočit článek
(nedoporučujeme)
Pandas - Tvorba vlastního datasetu
Článek pro vás napsal Michal Souček
Avatar
Uživatelské hodnocení:
56 hlasů
Michal
Aktivity