NOVINKA: Staň se datovým analytikem od 0 Kč a získej jistotu práce, lepší plat a nové kariérní možnosti. Více informací:

Lekce 5 - Práce ve VS Code s CSV a JSON Nové

V minulé lekci, Datový formát CSV, jsme se věnovali práci s formátem CSV v Excelu a Google Sheets.

V tomto tutoriálu datové analýzy si ukážeme nástroj VS Code a jak s ním pracovat se soubory CSV. Uvedeme si také formát JSON.

Příprava nástrojů – Visual Studio Code

Ještě než se pustíme do práce s datasety, stáhneme si editor Visual Studio Code (VS Code), který nám umožní přehledně zobrazit strukturu dat v souborech. Editor stáhneme ze stránek Microsoftu a nainstalujeme:

Stažení editoru VS Code - Úvod do datové analýzy a obchodního rozhodování

Spustíme instalační soubor a potvrdíme oprávnění ve Windows:

Spuštění VS Code - Úvod do datové analýzy a obchodního rozhodování

V průvodci instalace klikneme na Next (Další):

Průvodce instalací VS Code - Úvod do datové analýzy a obchodního rozhodování

Zaškrtneme doplňkové volby:

Nastavení doplňkových voleb VS Code - Úvod do datové analýzy a obchodního rozhodování

A dokončíme instalaci:

Dokončení instalace VS Code - Úvod do datové analýzy a obchodního rozhodování

Práce s csv soubory ve VS Code

Pojďme si CSV soubor ElectricCarData_Clean.csv z minulé lekce otevřít ve VS Code. Uvidíme jej v surové textové podobě, kde s daty nemůžeme na rozdíl od Excelu pracovat, ale bude alespoň přehledně obarvený. V horní části okna editoru najedeme myší na položku File. Vybereme možnost Open File… a klikneme na ni:

Otevření souboru ve VS Code - Úvod do datové analýzy a obchodního rozhodování

Vybereme požadovaný soubor, který chceme otevřít (který jsme si předtím rozbalili):

Otevřeme soubor s naším datasetem - Úvod do datové analýzy a obchodního rozhodování

VS Code nám obvykle samo nabídne možnost instalace rozšíření Rainbow CSV, které jednotlivé položky obarví pro lepší čitelnost:

Dataset s možností rozšíření o Rainbow CSV - Úvod do datové analýzy a obchodního rozhodování

Pokud se tak nestane, rozšíření si můžeme přidat sami kliknutím na ikonu Extensions, kde vyhledáme rozšíření Rainbow CSV. Přidáme si ho kliknutím na Install:

Přidání rozšíření Rainbow CSV - Úvod do datové analýzy a obchodního rozhodování

S rozšířením Rainbow CSV docílíme lepší přehlednosti:

Díky rozšíření Rainbow CSV je dataset přehlednější - Úvod do datové analýzy a obchodního rozhodování

Vidíme značky a typy dostupných elektromobilů a jejich další parametry, jejichž význam udává první, hlavičkový řádek.

JSON

JSON (JavaScript Object Notation – zápis objektů jazyka JavaScript) je moderní formát pro zápis strukturovaných dat. Umožňuje ukládat záznamy jako srozumitelný text ve formě klíč:hodnota a podporuje hierarchii. Je ideální k přenosu dat mezi systémy a často se používá u webových služeb, API a různých datových platforem.

Struktura JSON

Data jsou ve formátu JSON organizována do objektů a polí. Na rozdíl od tabulkového CSV se tedy hodí pro složitější struktury, např. tam, kde objekt v sobě obsahuje další objekty. Ukázkový JSON se dvěma osobami by vypadal takto:

[
    {
        "jmeno": "Jan",
        "prijmeni": "Novák",
        "ulice": "Příkrá",
        "mesto": "Vlašim",
        "psc": 25801
    },
    {
        "jmeno": "Jana",
        "prijmeni": "Příhodová",
        "ulice": "U Hrušní 15",
        "mesto": "Benešov",
        "psc": 25601
    }
]

Pole (seznam položek) je uspořádané seskupení hodnot uzavřené v hranatých závorkách []. Jednotlivé položky (zde objekty) jsou oddělené čárkami. Objekt se skládá ze dvojic klíč:hodnota, což jej činí dobře čitelným, a je uzavřený ve složených závorkách {}. Texty se píšou do uvozovek, aby se nepletly s dalším obsahem. Každá úroveň zanoření se zpravidla odsazuje zleva mezerami nebo tabulátory, aby byl soubor lépe čitelný.

Všimněme si, že za poslední položkou není čárka. Ta by mohla způsobit chybu formátu.

Díky této struktuře je formát JSON lehký, snadno čitelný a strojově zpracovatelný, což ho činí ideálním pro API a webové aplikace.

JSON nepodporuje ukládání binárních dat bez převodu (například do Base64) a chybí mu podpora komentářů. Pro rozsáhlé datové struktury může být méně efektivní než některé jiné formáty.

Ukázkový dataset v JSON

Podobu JSON formátu si ukážeme na příkladu datasetu ze stránek Kaggle. Jedná se o slavný dataset s měřením parametrů různých květin, který se používá v kurzech datové analýzy. Vzhledem k rozsahu tohoto datasetu si ukážeme jen jeho část. Opět jej naleznete i v archivu pod lekcí. Na rozdíl od formátu CSV nám Excel soubory JSON již neotevře.

Ve VS Code soubor otevřeme podobně, jako jsme otevírali soubor ve formátu CSV. Formátování JSON nastavíme ve VS Code klávesovou zkratkou, čímž se data opět hezky zabarví:

  • Shift + Alt + F (Windows, Linux),
  • Shift + Option + F (Mac).
Otevření JSON souboru ve VS Code - Úvod do datové analýzy a obchodního rozhodování

Vidíme pole (seznam) a v něm spoustu objektů. Každý objekt představuje měření jedné květiny. Vysvětlíme si jednotlivé položky:

  • sepal_length – délka kališního lístku (v centimetrech),
  • sepal_width – šířka kališního lístku,
  • petal_length – délka korunního lístku,
  • petal_width – šířka korunního lístku,
  • species – druh květiny (např. setosa, versicolor, virginica).

Práce s JSON soubory vyžaduje nástroje, které umí hierarchická data zpracovat. Patří mezi ně například Power BI, k jehož použití se dostaneme v pozdějších lekcích.

V příští lekci, Datové formáty XML a SQL, se budeme zabývat nejrozšířenějšími formáty pro datovou analýzu – XML a SQL.


 

Stáhnout

Stažením následujícího souboru souhlasíš s licenčními podmínkami

Staženo 53x (7.09 kB)

 

Předchozí článek
Datový formát CSV
Všechny články v sekci
Úvod do datové analýzy a obchodního rozhodování
Přeskočit článek
(nedoporučujeme)
Datové formáty XML a SQL
Článek pro vás napsal Jan Rypáček
Avatar
Uživatelské hodnocení:
12 hlasů
Jan Rypáček
Aktivity