Lekce 21 - Práce s PDF soubory v Pythonu – Obrázky a tabulky
V minulé lekci, Práce s PDF soubory v Pythonu - Čtení a extrakce dat, jsme si ukázali jak číst a extrahovat data z
PDF souborů pomocí knihovny PyMuPDF
.
V následujícím tutoriálu práce s PDF soubory v Pythonu
budeme pokračovat ve čtení a extrakci dat z PDF souboru. Kromě textu, který
už načíst umíme, chceme také informace o obrázcích a tabulkách. K tomu
opět využijeme metodu get_text()
, tentokrát ovšem s argumentem
json
.
Využití JSON k analýze PDF
Formát JSON nám poskytne detailní strukturu souboru. Pojďme se tedy podívat na strukturu čtvrté strany našeho modelového dokumentu. Postupujeme následovně:
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V následujícím tutoriálu práce s PDF soubory v Pythonu dokončíme naši čtečku PDF souborů. Použijeme knihovny PyMuPDF a camelot.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.