Lekce 20 - Práce s PDF soubory v Pythonu - Čtení a extrakce dat
V minulé lekci, Práce se soubory DocX v Pythonu - Analýza bloků, jsme sestavili celý program k analýze a přečtení DocX souboru.
V následujícím tutoriálu práce s PDF soubory v Pythonu
si ukážeme, jak přečíst a extrahovat data ze souborů ve formátu
PDF. K práci s tímto formátem využijeme knihovny
PyMuPDF
.
Práce s PDF soubory v Pythonu
PDF formát patří v současnosti k nejpoužívanějším formátům pro distribuci dokumentů po celém světe a každý z nás se s ním jistě setkává poměrně často. Je tedy důležité, abychom tomuto formátu rozuměli a uměli s ním zacházet. Konkrétně se zaměříme na následující oblasti:
- přečtení a extrakce dat z PDF dokumentů,
- vytvoření PDF dokumentů z HTML šablony,
- převedení dokumentů jiného formátu (docx, xls ...) do formátu PDF.
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V následujícím tutoriálu práce s PDF soubory v Pythonu si ukážeme, jak přečíst a extrahovat data z PDF souborů. Použijeme knihovnu PyMuPDF.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.