Algoritmus internetového vyhledávače - Barely a crawler

Algoritmy Vyhledávání Algoritmus internetového vyhledávače - Barely a crawler

V minulém článku o principu internetových vyhledávačů jsme si uvedli přepis dotazu na binární stromy. V dnešním dílu se budeme věnovat datovým barelům, jejich struktuře, StopSlovům a nakonec si popíšeme crawlery.

Protože se jedná o poměrně unikátní informace, budou další články jako prémiové, aby nebyly jen tak volně přístupné a dostali se k nim převážně lidé, kteří mají o pochopení algoritmu opravdu zájem.

Datové barely

Jedná se o speciální datový typ, umístěný na více serverech současně ve více kopiích. Zpravidla se jedná o datově náročné soubory o velikosti stovek GB a jejich čtení je pomalé (proto jsou rozdělené na části) a jejich úprava je prakticky nemožná. Pokud chceme provést byť minimální změnu, tak musíme přepočítat celý barel. Například vyhledávač Seznam.cz datové barely zvládá přepočítat maximálně jednou za měsíc, Google přepočítávání provádí jednou za několik hodin (a to pouze některých částí, nikdy celý najednou).

Barely obsahují


 

...konec náhledu článku...

Prémiový článek

Prémiový článek

Na itnetwork.cz se nachází největší a nejucelenější česká databáze s výukovými články, jejímž cílem je umožnit kvalitní vzdělání v oblasti IT úplně každému. Měsíčně zobrazíme k milionu článků a sklidíme desítky děkovných emailů, kde nám sdělujete, že jsme vám pomohli k lepšímu zaměstnání nebo vzdělání.

Ačkoli se snažíme držet většinu obsahu úplně zadarmo, udržovat síť v provozu a aktuální stojí obrovské úsilí. Proto je nějaký obsah, jako cvičení nebo odbornější články, přístupný pouze za body. Nebojte, nestojí to skoro nic :)

Popis článku

Požadovaný článek má následující obsah:

Popis principů fulltextového vyhledávání na internetu. Uvedeme si datové barely, jejich strukturu, StopSlova a nakonec si popíšeme crawlery.
Pro přístup k článku potřebuješ 10 bodů
Na svém účtu máš aktuálně 0 bodů
10 bodů získáš za přidání svého článku na síť nebo za 25 Kč

Koupí článku k němu získáš neomezený přístup a to napořád. Posuneš své znalosti zas kousek dopředu a zároveň nám pomůžeš udržovat celý projekt při životě a pomáhat vám tak k lepší budoucnosti.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Body získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Dobít body můžeš okamžitě např.:

Kartou SMS Převodem
Kartou SMS Převodem

  Aktivity (1)

Článek pro vás napsal Jan Barášek
Avatar
Autor se věnuje návrhu algoritmů, vyhledávání a matematice. Jednou by rád naprogramoval matematický vyhledávač, který bude lepší než Wolfram|Alpha.