Vyhledávání

Dokonči kurz
0/15

Hledání extrému (minima a maxima) v poli

Sekvenční vyhledávání

Binární vyhledávání

Interpolační vyhledávání

Vyhledávání řetězce v textu

Binární vyhledávací strom (BST)

AVL strom

B-stromy

Srovnání jednoduchých vyhledávacích struktur

Hashovací tabulka

Optimalizované vyhledávání v poli - princip děr

Algoritmus internetového vyhledávače - Stromy a StopSlova

Algoritmus internetového vyhledávače - Barely a crawler

Algoritmus internetového vyhledávače - Indexace a kanonizace

Algoritmus internetového vyhledávače - Třídění a popisovač

Lekce 14 - Algoritmus internetového vyhledávače - Indexace a kanonizace

V minulé lekci, Algoritmus internetového vyhledávače - Barely a crawler, jsme si popsali principy fulltextového vyhledávání na internetu. Uvedli si datové barely, jejich strukturu, StopSlova a nakonec si popsali i crawlery.

V dnešní lekci se budeme věnovat indexaci a kanonizaci dokumentů na internetu.

Indexace

Proces indexace provádí komponenta zvaná indexér. Jedná se o speciálně navržený program, který ze stažených dat (ta data, která stáhl Crawler) udělá speciální datový typ určený k vyhledávání – barely.

Problém indexace je v tom, že nelze dokumenty „chytře“ procházet, ale je nevyhnutelné

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Před koupí tohoto článku je třeba koupit předchozí díl

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?

Neomezený a trvalý přístup k jednotlivým lekcím.
Kvalitní znalosti v oblasti IT.
Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

Popíšeme si proces indexace dokumentu pavoukem a jeho vypořádání s duplicitami a plagiáty. Pokračujeme v popisu algoritmu fulltextového vyhledávače.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsal Jan Barášek

Autor článku podniká jako fullstack senior developer v Praze. Za svůj život napsal stovky středních i velkých webů, fungujících dodnes. Během spolupráce nabral hluboké zkušenosti, které na tomto webu předává dál.

Aktivity

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh za pouhých	125 Kč
Aktuální stav konta	0 Kč
Koupí tohoto balíčku získáš přístup ke všem 15 článkům (15 lekcí) tohoto kurzu.

Nejčastěji vyhledáváné

Lekce 14 - Algoritmus internetového vyhledávače - Indexace a kanonizace

Indexace

Koupit tento kurz

Popis článku