4. díl - Úvod do formátu XML souborů v Javě

Java Práce se soubory Úvod do formátu XML souborů v Javě

V minulém dílu našeho seriálu tutoriálů o Javě jsme se věnovali textovým souborům. Dnes se zaměříme na formát XML, nejprve si ho popíšeme, poté si ukážeme třídy, které nám Java poskytuje k jeho čtení a zápisu. Zápis si vyzkoušíme dnes, čtení příště.

Formát XML

Nyní vás zahrnu spoustou pojmů, když něčemu nebudete rozumět, vůbec to navadí, vše si tu ještě probereme :)

XML (eXtensible Markup Language) je značkovací jazyk, který vyvinulo W3C (organizace, která má na starosti webové standardy). XML je velmi univerzální a je podporováno řadou jazyků i aplikací. Slovo extensible (rozšiřitelný) označuje možnost vytvořit si pomocí XML vlastní jazyk, tím je např. XHTML pro tvorbu webových stránek. XML je jazyk samopopisovací, má takovou strukturu, že poznáme, co která hodnota označuje. Zatímco v CSV se můžeme jen domnívat, co je ta třetí osmička, v XML by nám bylo hned jasné, že je to počet článků uživatele (například). Nevýhodou formátu je samozřejmě jeho větší velikost, což nám však ve většině případů nevadí. Osobně téměř vždy při výběru formátu sahám po XML, hodí se např. k uložení konfigurace programu, hiscore hráčů hry nebo k menší databázi uživatelů. Díky XSD schématům ho můžeme jednoduše zvalidovat a předejít chybám při běhu programu.

XML je možné zpracovávat hned několika způsoby. Obvykle jednoduchým kontinuálním čtením/zápisem nebo pomocí objektové struktury DOM. Došlo to tak daleko, že nám některé nástroje umožňují s XML dokumentem pracovat jako s databází a volat nad ním dotazy (používá se k tomu jazyk XPath nebo SQL). Asi si dokážete představit, že to usnadní práci.

XML konkuruje jednodušší, ale méně prosazený JSON. Ten narozdíl od XML umožňuje snadné logování na konec souboru bez načtení celého dokumentu.

XML se velmi často používá k výměně dat mezi rozdílnými systémy (např. desktopovou aplikací a webovou aplikací na serveru), proto jak již bylo zmíněno existuje pro něj mnoho knihoven a každý nástroj ho zná a umí s ním pracovat. S tím souvisejí webové služby, SOAP a podobně, čímž se však nyní nebudeme zabývat.

Pojďme si ukázat, jak by vypadalo uložení uživatelů do textového souboru, přesněji do souboru CSV. Ukládalo by se jméno, věk a datum registrace. Hodnoty by byly zasebou, oddělené středníky. Každý řádek by představoval jednoho uživatele. Obsah souboru vypadal tedy asi takto:

Pavel Slavík;22;21.3.2000
Jan Novák;31;30.10.2012

Nezasvěcený z toho nic moc nepozná, že? Udělejme si nyní ekvivalent souboru ve formátu XML:

<?xml version="1.0" encoding="UTF-8" ?>
<uzivatele>
        <uzivatel vek="22">
                <jmeno>Pavel Slavík</jmeno>
                <registrovan>21.3.2000</registrovan>
        </uzivatel>
        <uzivatel vek="22">
                <jmeno>Jan Novák</jmeno>
                <registrovan>30.10.2012</registrovan>
        </uzivatel>
</uzivatele>

Nyní každý vidí, co je v souboru uloženo. Věk jsem zde uložil jako atribut jen proto, abych ukázal, že je XML umí, jinak by mohl být jako element spolu se jménem a registrován. Nyní jsem tedy vyzradil, že jednotlivým prvkům se říká elementy. Ty určitě všichni znáte z HTML, které vychází ze stejných základů jako XML. Elementy jsou většinou párové, tedy otevírací, poté následuje hodnota a uzavírací s lomítkem. Elementy mohou obsahovat další elementy, struktura je tedy stromová. Díky tomu není problém do jediného XML dokumentu uložit celou hierarchii objektů. Na začátku souboru je XML hlavička. Aby byl dokument validní, musí obsahovat právě 1 kořenový element, zde element uzivatele, ve kterém jsou zabaleny další elementy. Atributy se píší za název atributu do uvozovek.

Určitě vidíme, že soubor nám nabobtnal, to je daň za to, že vypadá hezky. Kdyby neměl uživatel atributy jen 3, ale např. 30, bylo by vidět, jak CSV formát přestává stačit. Osobně se s přibývajícími zkušenostmi stále více přikláním k řešením, která jsou přehledná a jednoduchá, i když třeba zabírají více paměti (a to nejen v souborech, ale i ve zdrojovém kódu). Nic není horšího, než když programátor přijde za rok ke svému programu a vůbec neví, co je ten osmý parametr v CSV, kde je na řádku 100 nějakých čísel. Nebo co je to pětirozměrné pole, které je sice hrozně rychlé, ale kdyby si místo něj postavil objektovou strukturu, nemusel by nyní psát program odznovu. Ale to jsem odbočil.

XML v Javě

Budeme se zde věnovat dvou základním přístupům ke XML. Kontinuálnímu přístupu (tzv. SAX parser) a přístupu objektovému (DOM). Dnešní a příští díl bude věnovám SAXu, další DOMu. Opět máme Javě více způsobů, jak s XML pracovat, existuje zde mnoho tříd. Pokusil jsem se zde ukázat to nejjednodušší a zároveň správné řešení.

Parsování XML přes SAX

SAX (jako Simple API for XML) je vlastně jednoduchá nadstavba čtečky textových souborů. Zápis je poměrně jednoduchý, postupně zapisujeme elementy a atributy tak, jak jdou v souboru zasebou. Stromovou strukturu zde tedy ignorujeme. Java nám poskytuje třídu XMLStreamWriter, která je dále obalena třídou SAXParserFactory. Ta nás odstiňuje od toho, že je XML textový soubor. Pracujeme pouze s elementy (přesněji uzly, více dále).

Čtení probíhá podobně, jako zápis. XML tedy čteme jako textový soubor, řádek po řádku, odshora dolů. SAX nám však nedává řádky, ale postupně tzv. uzly (anglicky node), na které při čtení postupně naráží. Uzel může být element, atribut nebo hodnota. V cyklu uzly dostáváme tak, jak jdou v souboru zasebou. Ke čtení použijeme třídu XMLStreamReader.

Výhodou SAX je vysoká rychlost a paměťová nenáročnost. Nevýhody poznáme, až tento přístup srovnáme s objektovým přístupem DOM. Příště si vytvoříme XML soubor pomocí přístupu SAX.


 

  Aktivity (1)

Článek pro vás napsal David Čápka
Avatar
Autor pracuje jako softwarový architekt a pedagog na projektu ITnetwork.cz (a jeho zahraničních verzích). Velmi si váží svobody podnikání v naší zemi a věří, že když se člověk neštítí práce, tak dokáže úplně cokoli.
Unicorn College Autor se informační technologie naučil na Unicorn College - prestižní soukromé vysoké škole IT a ekonomie.

Jak se ti líbí článek?
Celkem (1 hlasů) :
55555


 


Miniatura
Všechny články v sekci
Práce se soubory v Javě
Miniatura
Následující článek
Zápis XML souborů SAXem v Javě

 

 

Komentáře

Avatar
Kit
Redaktor
Avatar
Kit:

Jeden z úspornějších zápisů stejných dat může vypadat například takto:

<?xml version="1.0" encoding="UTF-8" ?>
<uzivatele>
        <uzivatel vek="22" jmeno="Pavel Slavík" registrovan="21.3.2000"/>
        <uzivatel vek="22" jmeno="Jan Novák" registrovan="30.10.2012"/>
</uzivatele>

Tento zápis má své příznivce a odpůrce. Hlavním argumentem odpůrců je asi fakt, že odebráním atributů se ztrácí všechny informace. Příznivcům se zase líbí jednoduchost. Zpracovat lze obojí, každý zápis má však jiné schéma a musí být zpracováno jinak nastaveným parserem. Zápisy tedy nejsou zaměnitelné.

Odpovědět  +4 9.5.2013 9:36
Vlastnosti objektů by neměly být veřejné. A to ani prostřednictvím getterů/setterů.
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 1 zpráv z 1.