Lekce 21 - Práce s PDF soubory v Pythonu – Obrázky a tabulky
V minulé lekci, Práce s PDF soubory v Pythonu - Čtení a extrakce dat, jsme si ukázali jak číst a extrahovat data z
PDF souborů pomocí knihovny PyMuPDF.
V následujícím tutoriálu práce s PDF soubory v Pythonu
budeme pokračovat ve čtení a extrakci dat z PDF souboru. Kromě textu, který
už načíst umíme, chceme také informace o obrázcích a tabulkách. K tomu
opět využijeme metodu get_text(), tentokrát ovšem s argumentem
json.
Využití JSON k analýze PDF
Formát JSON nám poskytne detailní strukturu souboru. Pojďme se tedy podívat na strukturu čtvrté strany našeho modelového dokumentu. Postupujeme následovně:
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit pouze tento kurz
Získej okamžitý přístup ke kurzu bez
časového omezení.
550 Kč
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Přístup k jednotlivým lekcím dle způsobu pořízení.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V následujícím tutoriálu práce s PDF soubory v Pythonu dokončíme naši čtečku PDF souborů. Použijeme knihovny PyMuPDF a camelot.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.
