NOVINKA: Získej 40 hodin praktických dovedností s AI – ZDARMA ke každému akreditovanému kurzu!
S účinností od 26. 3. jsme aktualizovali Zásady zpracování osobních údajů – doplnili jsme informace o monitorování telefonických hovorů se zájemci o studium. Ostatní části zůstávají beze změn.

Diskuze: Extrakce dat z html v Javě

V předchozím kvízu, Online test znalostí Java, jsme si ověřili nabyté zkušenosti z kurzu.

Jak se ti líbí článek?
Před uložením hodnocení, popiš prosím autorovi, co je špatněZnaků 0 z 50-500
Jak se ti kurz líbí?
Tvé hodnocení kurzuZnaků 0 z 50-500
Aktivity
Avatar
Paul
Člen
Avatar
Paul:6.3.2014 9:27

Ahoj, mám z webu stažená data ve formátu HTML a uložená v textovém dokumentu. Jsou to data o firmách v následujcícím formátu. Potřeboval bych tato data vyextrahovat a uložit do txt tak abych měl následující formát:
28.2.2014; 27078388
28.2.2014; 25703129

Můžete mi prosím poradit, nebo alespoň nasměrovat? Trápím se s tím už docela dlouho a na nic jsem nepřišel.
Díky

<table border="0" cellspacing="1" cellpadding="3" width="100%">
                                        <tr>
                                                <td colspan="3" class=menuv>
                                                        <a href="/?p=302000_detail&ov[action]=detail&ov[detail_id]=9142570&ov[hash_id]=676b61421b1b1b1b1b1b1b1b42616b67&ov[wh]=&ov[sk]=0" style="text-decoration: underline; color: white;">


                                                        AllTechService, s.r.o. v likvidaci
                                                        </a>
                                                </td>
                                        </tr>
                                        <tr>
                                                <td class="sedomodra" width="100">
                                                        <strong>OV:</strong> 28.2.2014
                                                </td>
                                                <td class="sedomodra" width="120">
                                                        <strong>IČ:</strong> 27078388
                                                </td>
                                                <td class="sedomodra" width="238">
                                                        <strong>Datum zápisu:</strong> &nbsp;
                                                </td>
                                        </tr>


        <tr>
          <td class="sedomodra" colspan="3">
            <strong>Sídlo:</strong> Petřinská 14/572, 150 00 Praha 5-Malá Strana
          </td>
        </tr>



         <tr>
           <td class="sedomodra" colspan="3">
             <strong>Datum publikace:</strong> 28.2.2014
           </td>
         </tr>


                                        <tr>
                                                <td class="sedomodra" colspan="3">
                                                        Likvidace
                                                </td>
                                        </tr>

                                </table>

                                <br>
                                <table border="0" cellspacing="1" cellpadding="3" width="100%">
                                        <tr>
                                                <td colspan="3" class=menuv>
                                                        <a href="/?p=302000_detail&ov[action]=detail&ov[detail_id]=9142571&ov[hash_id]=6c633d3b441d1d1d1d1d1d443b3d636c&ov[wh]=&ov[sk]=0" style="text-decoration: underline; color: white;">


                                                        AMI-SPORT, s.r.o. v likvidaci
                                                        </a>
                                                </td>
                                        </tr>
                                        <tr>
                                                <td class="sedomodra" width="100">
                                                        <strong>OV:</strong> 28.2.2014
                                                </td>
                                                <td class="sedomodra" width="120">
                                                        <strong>IČ:</strong> 25703129
                                                </td>
                                                <td class="sedomodra" width="238">
                                                        <strong>Datum zápisu:</strong> &nbsp;
                                                </td>
                                        </tr>


        <tr>
          <td class="sedomodra" colspan="3">
            <strong>Sídlo:</strong> Husinecká 29, 130 00 Praha 3
          </td>
        </tr>



         <tr>
           <td class="sedomodra" colspan="3">
             <strong>Datum publikace:</strong> 28.2.2014
           </td>
         </tr>


                                        <tr>
                                                <td class="sedomodra" colspan="3">
                                                        Likvidace
                                                </td>
                                        </tr>

                                </table>
 
Odpovědět
6.3.2014 9:27
Avatar
adder
Člen
Avatar
adder:6.3.2014 21:31

Já myslím, že se to bude dělat hodně podobně jak v tomhle seriálu http://www.itnetwork.cz/java/soubory . XML je metalanguage pro html, takže to půjde. Klidně mi napiš do zpráv, rád bych se na to podíval s tebou a něco nevého se přiučil :)

Nahoru Odpovědět
6.3.2014 21:31
I’m going to lay this brick as perfectly as a brick can be laid.
Avatar
Silvinios
Tvůrce
Avatar
Odpovídá na Paul
Silvinios:7.3.2014 17:47

Buď můžeš použít regulární výrazy nebo nějakou knihovnu na parsování HTML viz zdejší tutoriál Parsování HTML v Javě s knihovnou Jsoup
http://www.itnetwork.cz/…sovani-html/

XML bych do toho nemíchal. HTML a XML není totéž.

 
Nahoru Odpovědět
7.3.2014 17:47
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 3 zpráv z 3.