Avatar
Paul
Člen
Avatar
Paul:

Ahoj, mám z webu stažená data ve formátu HTML a uložená v textovém dokumentu. Jsou to data o firmách v následujcícím formátu. Potřeboval bych tato data vyextrahovat a uložit do txt tak abych měl následující formát:
28.2.2014; 27078388
28.2.2014; 25703129

Můžete mi prosím poradit, nebo alespoň nasměrovat? Trápím se s tím už docela dlouho a na nic jsem nepřišel.
Díky

<table border="0" cellspacing="1" cellpadding="3" width="100%">
                                        <tr>
                                                <td colspan="3" class=menuv>
                                                        <a href="/?p=302000_detail&ov[action]=detail&ov[detail_id]=9142570&ov[hash_id]=676b61421b1b1b1b1b1b1b1b42616b67&ov[wh]=&ov[sk]=0" style="text-decoration: underline; color: white;">


                                                        AllTechService, s.r.o. v likvidaci
                                                        </a>
                                                </td>
                                        </tr>
                                        <tr>
                                                <td class="sedomodra" width="100">
                                                        <strong>OV:</strong> 28.2.2014
                                                </td>
                                                <td class="sedomodra" width="120">
                                                        <strong>IČ:</strong> 27078388
                                                </td>
                                                <td class="sedomodra" width="238">
                                                        <strong>Datum zápisu:</strong> &nbsp;
                                                </td>
                                        </tr>


        <tr>
          <td class="sedomodra" colspan="3">
            <strong>Sídlo:</strong> Petřinská 14/572, 150 00 Praha 5-Malá Strana
          </td>
        </tr>



         <tr>
           <td class="sedomodra" colspan="3">
             <strong>Datum publikace:</strong> 28.2.2014
           </td>
         </tr>


                                        <tr>
                                                <td class="sedomodra" colspan="3">
                                                        Likvidace
                                                </td>
                                        </tr>

                                </table>

                                <br>
                                <table border="0" cellspacing="1" cellpadding="3" width="100%">
                                        <tr>
                                                <td colspan="3" class=menuv>
                                                        <a href="/?p=302000_detail&ov[action]=detail&ov[detail_id]=9142571&ov[hash_id]=6c633d3b441d1d1d1d1d1d443b3d636c&ov[wh]=&ov[sk]=0" style="text-decoration: underline; color: white;">


                                                        AMI-SPORT, s.r.o. v likvidaci
                                                        </a>
                                                </td>
                                        </tr>
                                        <tr>
                                                <td class="sedomodra" width="100">
                                                        <strong>OV:</strong> 28.2.2014
                                                </td>
                                                <td class="sedomodra" width="120">
                                                        <strong>IČ:</strong> 25703129
                                                </td>
                                                <td class="sedomodra" width="238">
                                                        <strong>Datum zápisu:</strong> &nbsp;
                                                </td>
                                        </tr>


        <tr>
          <td class="sedomodra" colspan="3">
            <strong>Sídlo:</strong> Husinecká 29, 130 00 Praha 3
          </td>
        </tr>



         <tr>
           <td class="sedomodra" colspan="3">
             <strong>Datum publikace:</strong> 28.2.2014
           </td>
         </tr>


                                        <tr>
                                                <td class="sedomodra" colspan="3">
                                                        Likvidace
                                                </td>
                                        </tr>

                                </table>
 
Odpovědět 6.3.2014 9:27
Avatar
adder
Člen
Avatar
adder:

Já myslím, že se to bude dělat hodně podobně jak v tomhle seriálu http://www.itnetwork.cz/java/soubory . XML je metalanguage pro html, takže to půjde. Klidně mi napiš do zpráv, rád bych se na to podíval s tebou a něco nevého se přiučil :)

Nahoru Odpovědět 6.3.2014 21:31
I’m going to lay this brick as perfectly as a brick can be laid.
Avatar
Silvinios
Redaktor
Avatar
Odpovídá na Paul
Silvinios:

Buď můžeš použít regulární výrazy nebo nějakou knihovnu na parsování HTML viz zdejší tutoriál Parsování HTML v Javě s knihovnou Jsoup
http://www.itnetwork.cz/…sovani-html/

XML bych do toho nemíchal. HTML a XML není totéž.

 
Nahoru Odpovědět 7.3.2014 17:47
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 3 zpráv z 3.