Algoritmus internetového vyhledávače - Indexace a kanonizace

Algoritmy Vyhledávání Algoritmus internetového vyhledávače - Indexace a kanonizace

V minulém článku o principu internetových vyhledávačů jsme se věnovali datovým barelům, jejich struktuře, StopSlovům a nakonec si popsali crawlery. Dnešní díl je věnovaný indexaci a kanonizaci dokumentů na internetu.

Indexace

Proces indexace provádí komponenta zvaná indexér. Jedná se o speciálně navržený program, který ze stažených dat (ta data, která stáhl Crawler) udělá speciální datový typ určený k vyhledávání – barely.

Problém indexace je v tom, že nelze dokumenty „chytře“ procházet, ale je nevyhnutelné


 

...konec náhledu článku...

Prémiový článek

Prémiový článek

Na itnetwork.cz se nachází největší a nejucelenější česká databáze s výukovými články, jejímž cílem je umožnit kvalitní vzdělání v oblasti IT úplně každému. Měsíčně zobrazíme k milionu článků a sklidíme desítky děkovných emailů, kde nám sdělujete, že jsme vám pomohli k lepšímu zaměstnání nebo vzdělání.

Ačkoli se snažíme držet většinu obsahu úplně zadarmo, udržovat síť v provozu a aktuální stojí obrovské úsilí. Proto je nějaký obsah, jako cvičení nebo odbornější články, přístupný pouze za body. Nebojte, nestojí to skoro nic :)

Popis článku

Požadovaný článek má následující obsah:

Článek popisuje proces indexace dokumentu pavoukem a jeho vypořádání s duplicitami a plagiáty. Pokračujeme v popisu algoritmu fulltextového vyhledávače.
Pro přístup k článku potřebuješ 10 bodů
Na svém účtu máš aktuálně 0 bodů
10 bodů získáš za přidání svého článku na síť nebo za 25 Kč

Před koupí tohoto článku je třeba koupit předchozí díl

Koupí článku k němu získáš neomezený přístup a to napořád. Posuneš své znalosti zas kousek dopředu a zároveň nám pomůžeš udržovat celý projekt při životě a pomáhat vám tak k lepší budoucnosti.

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Body získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Dobít body můžeš okamžitě např.:

Kartou SMS Převodem
Kartou SMS Převodem

  Aktivity (1)

Článek pro vás napsal Jan Barášek
Avatar
Autor se věnuje návrhu algoritmů, vyhledávání a matematice. Jednou by rád naprogramoval matematický vyhledávač, který bude lepší než Wolfram|Alpha.