Lekce 18 - Práce se soubory DocX v Pythonu - Čtení a struktura
V minulé lekci, Práce se soubory DocX v Pythonu - Obrázky a tabulky, jsme si ukázali pokročilejší práci s DocX
dokumenty v Pythonu pomocí knihovny python-docx
. Probrali jsme
obrázky, a tabulky.
V následujícím tutoriálu práce se soubory v Pythonu se
zaměříme na čtení souborů formátu .docx
.
Využijeme k tomu opět knihovnu python-docx
.
Čtení již existujících DocX dokumentů
Dosud jsme vytvářeli zcela nové dokumenty. Teď jsi ukážeme, jak můžeme přečíst obsah již existujících dokumentů. Našim cílem bude vytvořit kód, který nám poskytne základní přehled o požadovaném dokumentu. Konkrétně nás budou zajímat následující informace:
- text obsažený v dokumentu,
- unformace o jednotlivých obrázcích,
- informace obsažené v tabulkách.
Připomeňme si, že informace v .docx
souboru jsou uložené ve
formátu XML. My tedy potřebujeme vytvořit kód, který nám tyto informace
extrahuje. Proto je nezbytné mít základní povědomí o tom, jak vypadá
struktura XML souboru, jak jej používá MS Word. Využijeme k tomu znalosti z
lekce Úvod do formátu
XML v Pythonu.
Struktura a hierarchie XML souboru formátu .docx
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V tomto tutoriálu práce se soubory DocX v Pythonu si ukážeme, jako pomocí knihovny python-docx číst dokumenty. Ukážeme si taky základy XML struktury.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.