Diskuze: PHP search engine

PHP PHP PHP search engine American English version English version

Avatar
macc
Neregistrovaný
Avatar
macc:

Chtěl bych se zeptat, jestli se dá vytvořit v php script na procházení hmtl kodu konkretní url (kterou si předem definuji) a v případě, že kod bude obsahovat určitý řetězec, tak jej zobrazí nebo udělá cokoli jiného. Jde mi o to, jestli lze udělat něco jako google, který prochází weby a nějak indexuje. Mě by šlo o jednu konkrétní doménu, jen prosté projití webu (ale bez zobrazení v prohlížeči přirozeně). Můžete mi někdo poradit, kde začít? Díky všem...M

 
Odpovědět 8.8.2013 17:26
Avatar
Odpovídá na macc
Luboš Běhounek (Satik):

Jde, zacal bych naucenim se zakladu PHP :)

Nahoru Odpovědět  +2 8.8.2013 17:30
:)
Avatar
jan.vencl
Redaktor
Avatar
Odpovídá na Luboš Běhounek (Satik)
jan.vencl:

Ahoj zkus:

$url="www.domenaKeZkoumani.cz";
$content=file_get_contents($url);
if($content==FALSE){
 echo "obsah webu nelze nacist";exit;
}
$regular_expression_pattern="~[0-9]~";
$content=zbavitsepbilychznaku($content);
/*bude hledat na zdrojovem kodu domeny string: 1 nebo 2 nebo 3....*/
preg_match($regular_expression_pattern,$content,$match);
/*následný výpis proměné pokud je NULL nebylo nalezeno*/
var_dump($match);

Potřebuješ znalosti regulerních vyrazů. Aplikace nebude rychlá protože musí stahovat celé html pak následně project regulérním výrazem u něj nevým jak je to se složitostí. Pečlívě si ošetři mezery, konce řádků a tabulátory v proměné $content.
Rozepiš mi klidně jen do zpráv co to je za projekt docela mně to zajímá :) a je to fér za tu drobnout radu:)

Editováno 8.8.2013 19:31
 
Nahoru Odpovědět  -1 8.8.2013 19:30
Avatar
macc
Neregistrovaný
Avatar
macc:

Díky, základy PHP mám, ale toto jsem nikdy neřešil. Zajímá mě to, kdybych chtěl někde na svém webu dát vyhledávat třeba destinaci a měl bych externí stránky cestovky, které nějak vytváří stránky zájezdu a já tu stránku definoval a na ní hledal požadovaný obsah a pak jej vypsal na svůj web i třeba s dalšimi informacemi, ale aby nebyla vidět cestovka.

 
Nahoru Odpovědět 9.8.2013 16:55
Avatar
David Čápka
Tým ITnetwork
Avatar
Odpovídá na macc
David Čápka:

Většinou parsuješ obsah webu jako XML. Vyhledávání je zbytečně pracné, když jde o konkrétní web a ty víš jak vypadá.

Nahoru Odpovědět  +1 9.8.2013 17:21
Miluji svou práci a zdejší komunitu, baví mě se rozvíjet, děkuji každému členovi za to, že zde působí.
Avatar
Odpovídá na macc
Luboš Běhounek (Satik):

Hodně jednoduše a neoptimalizovaně:
1 Načetl by sis kód té prohledávané stránky
2 Vytahal by jsi pro tebe relevantní texty - vyházet pryč html tagy, menu, hlavičku, patičku, případně i obrázky, odkazy, formuláře apod., ale pořád si pokud možno udržovat nějaké dělení textu na části, aby ti nezbyl jeden velký blok textu
3 Najít hledaný (nebo podobný) výraz a vypsat celý ten blok, kam patří, případně to nějak dál zpracovat

Nahoru Odpovědět  +1 9.8.2013 17:22
:)
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 6 zpráv z 6.