Letní akce Letní akce
Pouze tento týden sleva až 80 % na kurzy PHP. Lze kombinovat s akcí Letní slevy na prémiový obsah!
Brno? Vypsali jsme pro vás nové termíny školení Základů programování a OOP v Brně!

Algoritmus internetového vyhledávače - Barely a crawler

V minulém článku o principu internetových vyhledávačů jsme si uvedli přepis dotazu na binární stromy. V dnešním dílu se budeme věnovat datovým barelům, jejich struktuře, StopSlovům a nakonec si popíšeme crawlery.

Protože se jedná o poměrně unikátní informace, budou další články jako prémiové, aby nebyly jen tak volně přístupné a dostali se k nim převážně lidé, kteří mají o pochopení algoritmu opravdu zájem.

Datové barely

Jedná se o speciální datový typ, umístěný na více serverech současně ve více kopiích. Zpravidla se jedná o datově náročné soubory o velikosti stovek GB a jejich čtení je pomalé (proto jsou rozdělené na části) a jejich úprava je prakticky nemožná. Pokud chceme provést byť minimální změnu, tak musíme přepočítat celý barel. Například vyhledávač Seznam.cz datové barely zvládá přepočítat maximálně jednou za měsíc, Google přepočítávání provádí jednou za několik hodin (a to pouze některých částí, nikdy celý najednou).

Barely obsahují


 

...konec náhledu článku...

Prémiový článek

Prémiový článek

Na itnetwork.cz se nachází největší a nejucelenější česká databáze s výukovými články, jejímž cílem je umožnit kvalitní vzdělání v oblasti IT úplně každému. Měsíčně zobrazíme k milionu článků a sklidíme desítky děkovných emailů, kde nám sdělujete, že jsme vám pomohli k lepšímu zaměstnání nebo vzdělání.

Ačkoli se snažíme držet většinu obsahu úplně zadarmo, udržovat síť v provozu a aktuální stojí obrovské úsilí. Proto je nějaký obsah, jako cvičení nebo odbornějšíčlánky, přístupný pouze za body. Nebojte, nestojí to skoro nic :)

Popis článku

Požadovaný článek má následující obsah:

Popis principů fulltextového vyhledávání na internetu. Uvedeme si datové barely, jejich strukturu, StopSlova a nakonec si popíšeme crawlery.

Omezená nabídka: Nauč se vše a ušetři

Koupit články a funkce postupně a po jednom 50 bodů
Koupit celý kurz se všemi články a funkcemi za exkluzivní cenu 43 bodů
Na svém účtu máš aktuálně 0 bodů
Koupí tohoto výhodného balíčku získáš přístup ke všem 14 článkům s kontrolou a certifikací a ještě navíc ušetříš 19 Kč. Nabídka je omezená pouze pro první články z kurzu a obsahuje exkluzivní slevu 15%.
43 bodů získáš za přidání svého článku na síť nebo odpovídá 125 Kč 106 Kč

Koupit pouze tento článek

Pozor, pokud si koupíš pouze tento článek, ztratíš nárok na speciální slevu 15% na balíček všech článků.

Pro přístup k článku potřebuješ 10 bodů
Na svém účtu máš aktuálně 0 bodů
10 bodů získáš za přidání svého článku na síť nebo odpovídá 25 Kč

Koupí článku k němu získáš neomezený přístup a to napořád. Posuneš své znalosti zas kousek dopředu a zároveň nám pomůžeš udržovat celý projekt při životě a pomáhat vám tak k lepší budoucnosti.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Body získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Dobít body můžeš okamžitě např.:

Kartou SMS Převodem
Kartou SMS Převodem

 

Článek pro vás napsal Jan Barášek
Avatar
Autor se věnuje návrhu algoritmů, vyhledávání a matematice. Jednou by rád naprogramoval matematický vyhledávač, který bude lepší než Wolfram|Alpha.
Předchozí článek
Algoritmus internetového vyhledávače - Stromy a StopSlova
Všechny články v sekci
Vyhledávací algoritmy
Miniatura
Následující článek
Algoritmus internetového vyhledávače - Indexace a kanonizace
Aktivity (1)