Lekce 14 - Algoritmus internetového vyhledávače - Indexace a kanonizace
V minulé lekci, Algoritmus internetového vyhledávače - Barely a crawler, jsme si popsali principy fulltextového vyhledávání na internetu. Uvedli si datové barely, jejich strukturu, StopSlova a nakonec si popsali i crawlery.
V dnešní lekci se budeme věnovat indexaci a kanonizaci dokumentů na internetu.
Indexace
Proces indexace provádí komponenta zvaná indexér. Jedná se o speciálně navržený program, který ze stažených dat (ta data, která stáhl Crawler) udělá speciální datový typ určený k vyhledávání – barely.
Problém indexace je v tom, že nelze dokumenty „chytře“ procházet, ale je nevyhnutelné
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
Popíšeme si proces indexace dokumentu pavoukem a jeho vypořádání s duplicitami a plagiáty. Pokračujeme v popisu algoritmu fulltextového vyhledávače.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.