NOVINKA - Online rekvalifikační kurz Python programátor. Oblíbená a studenty ověřená rekvalifikace - nyní i online.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Lekce 21 - Práce s PDF soubory v Pythonu – Obrázky a tabulky

V minulé lekci, Práce s PDF soubory v Pythonu - Čtení a extrakce dat, jsme si ukázali jak číst a extrahovat data z PDF souborů pomocí knihovny PyMuPDF.

V následujícím tutoriálu práce s PDF soubory v Pythonu budeme pokračovat ve čtení a extrakci dat z PDF souboru. Kromě textu, který už načíst umíme, chceme také informace o obrázcích a tabulkách. K tomu opět využijeme metodu get_text(), tentokrát ovšem s argumentem json.

Využití JSON k analýze PDF

Formát JSON nám poskytne detailní strukturu souboru. Pojďme se tedy podívat na strukturu čtvrté strany našeho modelového dokumentu. Postupujeme následovně:


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh a certifikátem za pouhých 550 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 25 článkům (22 lekcí, 2 praktické cvičení, test) tohoto kurzu.

Před koupí tohoto článku je třeba koupit předchozí díl

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V následujícím tutoriálu práce s PDF soubory v Pythonu dokončíme naši čtečku PDF souborů. Použijeme knihovny PyMuPDF a camelot.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jakub Jakubec
Avatar
Aktivity