Diskuze: chyba při čtení html kódu z xml souboru

Java Java chyba při čtení html kódu z xml souboru

Avatar
Tomáš Brůna
Redaktor
Avatar
Tomáš Brůna:

Ahoj,
když čtu z xml souboru HTML kód, tak mi to vyhodí výjímku:

Chyba při čtení souboru: ParseError at [row,col]:[21,81]
Message: The reference to entity "subset" must end with the ';' delimiter.

xml soubor nemůžu upravit, protože se vždy stáhne nový.

tady je kód kde čtu:

  private static void nactiRecept(String cesta)
    {
     XMLInputFactory factory = XMLInputFactory.newInstance();
     XMLStreamReader xsr = null;

     try
     {
            xsr = factory.createXMLStreamReader(new FileReader(cesta));
            String element = "";

            while(xsr.hasNext())
            {
                // načítáme element
                if (xsr.getEventType() == XMLStreamConstants.START_ELEMENT)
                {
                        element = xsr.getName().getLocalPart();
                        if (element.equals("div"))
                        {
                         if (xsr.getAttributeValue(0).contains("wikiPreview"))
                                System.out.println("jkjklj");
                        }
                }
                xsr.next();
        }

}
catch (Exception e)
{
        System.err.println("Chyba při čtení souboru: " + e.getMessage());
}
finally
{
        try
        {
                xsr.close();
        }
        catch (Exception e)
        {
                System.err.println("Chyba při uzavírání souboru: " + e.getMessage());
        }
}
    }

celý xml soubor:

Odpovědět 26. ledna 19:57
Lepší být šprt než blbec :)
Avatar
Atrament
Člen
Avatar
Odpovídá na Tomáš Brůna
Atrament:

Tak je víceméně jasné v čem je problém - máš tam někde znak &, který v xml jen tak být nemůže, pravděpodobně to je součást nějakého linku. Nemůžeš sem hodit celý ten xml soubor? Nikdy jsem to ještě nemusel řešit, ale hádám že by mohlo stačit ten soubor prohnat filtrem co by nahradil všechny výskyty & za

&

nebo něco na ten způsob.

 
Nahoru Odpovědět  +1 27. ledna 16:09
Avatar
Tomáš Brůna
Redaktor
Avatar
Nahoru Odpovědět 28. ledna 6:46
Lepší být šprt než blbec :)
Avatar
Atrament
Člen
Avatar
Odpovídá na Tomáš Brůna
Atrament:

Ale vždyť to vůbec není xml ale docela obyčejné html. To musíš parsovat html parserem a ne xml parserem:)

Akceptované řešení
+20 Zkušeností
+1 bodů
Řešení problému
 
Nahoru Odpovědět 28. ledna 16:32
Avatar
Tomáš Brůna
Redaktor
Avatar
Odpovídá na Atrament
Tomáš Brůna:

aha, díky moc :) , jen napadlo, že by to tak mohlo jít ;)

Nahoru Odpovědět 28. ledna 16:42
Lepší být šprt než blbec :)
Avatar
Tomáš Brůna
Redaktor
Avatar
Nahoru Odpovědět 28. ledna 16:43
Lepší být šprt než blbec :)
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 6 zpráv z 6.