Avatar
malek.eduard
Člen
Avatar
malek.eduard:31.10.2014 10:04

Ahoj. Mám problém, čtu pdf pomocí itextsharp knihovny. Bohužel mi to nevrací správně diakriiku. Já jí nepotřebuji ale potřebnuji aby tam eventuelne byl místo prázdného místa znak bez diakritiky. Nevíte jak toho docílit?
níže přikládám jen krátký kód který vše obsluhuje. Díky

  • PdfReader reader = new PdfReader("M:/Sha­reDirs_KSP/RDM_Deb­tors/DMS_PROD/" + src);

    // we can inspect the syntax of the imported page

    String text = new String();

    for (int page = 1; page <= 1; page++) {

    text += PdfTextExtrac­tor.getTextFrom­Page(reader, page);

    }

    reader.close();*

 
Odpovědět 31.10.2014 10:04
Avatar
Rasto
Redaktor
Avatar
Rasto:3.11.2014 10:42

Osobne nemam skusenost s itextsharp, takze skusim iba vseobecny tip. Napriklad Notepad defaultne uklada file s kodovanim ANSI. Ak aj samotny text obsahuje diakritiku, pri ulozeni sa tieto znaky "stratia" (budu nahradene roznymi symbolmi resp otaznikmi). File treba ulozit v kodovani Unicode Big Endian (UTF-16BE) a pri jeho citani taktiez dekodovat znakove data pomocou tohto kodovania (Charset object).
Predpokladam, ze podobny princip funguje aj pri pdf. Neviem, ci mas moznost ovplyvnit kodovanie pdf suboru, ktory citas. Ak aj nie, skusil by som patrat po tom, ci je mozne pdf dokument citat pomocou dekodovania UTF-16BE

 
Nahoru Odpovědět 3.11.2014 10:42
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 2 zpráv z 2.