Lekce 14 - Algoritmus internetového vyhledávače - Indexace a kanonizace
V minulé lekci, Algoritmus internetového vyhledávače - Barely a crawler, jsme si popsali principy fulltextového vyhledávání na internetu. Uvedli si datové barely, jejich strukturu, StopSlova a nakonec si popsali i crawlery.
V dnešní lekci se budeme věnovat indexaci a kanonizaci dokumentů na internetu.
Indexace
Proces indexace provádí komponenta zvaná indexér. Jedná se o speciálně navržený program, který ze stažených dat (ta data, která stáhl Crawler) udělá speciální datový typ určený k vyhledávání – barely.
Problém indexace je v tom, že nelze dokumenty „chytře“ procházet, ale je nevyhnutelné
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit pouze tento kurz
Získej okamžitý přístup ke kurzu bez
časového omezení.
125 Kč
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Přístup k jednotlivým lekcím dle způsobu pořízení.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
Popíšeme si proces indexace dokumentu pavoukem a jeho vypořádání s duplicitami a plagiáty. Pokračujeme v popisu algoritmu fulltextového vyhledávače.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.