IT rekvalifikace s garancí práce. Seniorní programátoři vydělávají až 160 000 Kč/měsíc a rekvalifikace je prvním krokem. Zjisti, jak na to!
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Diskuze: Zaujem vo vyvoji vyhladavaca

Aktivity
Avatar
Old Account
Člen
Avatar
Old Account:11.2.2014 19:03

Zdravicko,

je tu niekto, kto sa zaobera problematikou fungovania vyhladavacov, pripadne ich vyvojom ? Uz nejaku dobu sa o to podrobne zaujimam, a jeden dokonca vyvijam, a rad by som sa o tom s niekym pozhovaral (povymienal vedomosti, nazory, etc.). Ak ma niekto nejake otazky ohladom ich fungovania, kludne sa opytajte tu, alebo mi napiste PM, posnazim sa vam poradit.

PS: Nemyslim tym SEO

Dakujem

Odpovědět
11.2.2014 19:03
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:11.2.2014 20:45

bude pouzitelny aj pre nas, tucniacikov?

 
Nahoru Odpovědět
11.2.2014 20:45
Avatar
Old Account
Člen
Avatar
Odpovídá na mkub
Old Account:12.2.2014 18:06

Myslim ze sme sa nepochopili. Ide o webovy vyhladavac, ktory mozno prirovnat k Google, Bing, DuckDuckGo.

Nahoru Odpovědět
12.2.2014 18:06
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Odpovídá na Old Account
Zdeněk Pavlátka:12.2.2014 18:10

Mě by jedna věc zajímala. Na jakém principu funguje vyhledávací algoritmus pro dlouhé texty? Měli jsme o tom mít ve škole přednášku, ale nakonec vybrali jinné téma.

Nahoru Odpovědět
12.2.2014 18:10
Kolik jazyků umíš, tolikrát jsi programátor.
Avatar
Old Account
Člen
Avatar
Odpovídá na Zdeněk Pavlátka
Old Account:12.2.2014 21:00

Nazyva sa to full text-ove vyhladavanie, a pracuje na principe indexovania suborov (nie je to pravidlo, ale zvacsa to tak byva). Cely proces indexovania prebieha asi takto: Web Spider (tiez nazyvany bot, pr. Google Bot) prehladava internetove stranky (vo vacsine pripadov ide o backlink algoritmus), a snazi sa najst do najvacsi pocet linkov, ktore odosle na spracovanie pre Web Crawler (v tejto casti vyhladavaca prebieha vlastne cele indexovanie stranok), ktory na dannej webovej stranke hlada odkazy smerujuce na ine domeny (aka Backlink algoritmus), a tie nasledne indexuje a uklada do databaze. Povedzme, ze sa jedna o webovu stranku seznam.cz, ktora je zaindexovana. Kazda stranka, a jej podstranky (clanky, subpages, etc.) ma v databazi vyhodnotene keywords, ktore vyhladavaci algoritmus porovnava s uzivatelom zadanymi slovami, a v pripade zhody zaradi stranku do vysledkov hladania (je to ovela komplexnejsie, hodnotit stranky mozno podla mnoho faktorov, a tak ziskat velmi presny vysledok).

Nahoru Odpovědět
12.2.2014 21:00
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:13.2.2014 0:01

sorry, asi som si to zle precital

 
Nahoru Odpovědět
13.2.2014 0:01
Avatar
David Hynek
Tvůrce
Avatar
Odpovídá na Old Account
David Hynek:13.2.2014 0:19

A co si ze stránky bude tvůj vyhledávač pamatovat?
Před rokem jsem si udělal PHP script co hledal na stránkách odkazy na další stránky a vždy si pamatoval titulek, keywords a nadpisy. Skončil jsem tím, že mi to naplnila DB tak rychle, že jsem to nečekal.

Nahoru Odpovědět
13.2.2014 0:19
Čím víc vím, tím víc věcí nevím.
Avatar
Old Account
Člen
Avatar
Odpovídá na David Hynek
Old Account:13.2.2014 16:24

Predpokladam, ze si pouzil klasicku relacnu databazu, a tam je ten problem. Pre pracu s tak velkymi datami je dolezite vybrat (pripadne vytvorit) spravnu databazu, ktora s nimi moze plnohodnotne pracovat, a k tomu je potreba non-relational DB (noSQL), a najlepsie je pouzit aj nejaky filesystem, napriklad Hadoop. Moj vyhladavac uklada rozne faktory, ako napriklad keywords, nadpisy, title stranky, urcite microdata a mnoho inych faktorov, podla ktorych ziska webova stranka hodnotenie.

Nahoru Odpovědět
13.2.2014 16:24
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
David Hynek
Tvůrce
Avatar
Odpovídá na Old Account
David Hynek:13.2.2014 19:11

Držím palce... jen mě teď napadlo, zda to není Hlodač? :)

Nahoru Odpovědět
13.2.2014 19:11
Čím víc vím, tím víc věcí nevím.
Avatar
Old Account
Člen
Avatar
Odpovídá na David Hynek
Old Account:13.2.2014 20:10

Heh, Mr. Hejl :D Kazdopadne, hlodac to urcite nie je, uz len z niekolkych dovodov, napriklad z toho, ze nasou prioritou nie je byt lepsi ako Google, ale poskytovat lepsiu bezpecnost ako Google, nehladame ziadnych investorov, ktorych by sme mohli osklbat o peniaze, alebo dokonca mat vsade reklamu a robit SEO na zakazku, a teda bude mat lepsi ranking ten, kto zaplati. Tiez sa nesnazime napodobnovat algoritmy Google, ale vyvijame vlastne. Heh, a asi najdolezitejsi rozdiel je ten, ze mame naozaj nieco, co funguje.

Nahoru Odpovědět
13.2.2014 20:10
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Lako
Člen
Avatar
Odpovídá na Old Account
Lako:14.2.2014 15:43

A co bude vyhledávat?
Asi by nebylo špatný se zaměřit na něco, kde můžete googlu konkurovat... Což jsou takové věci na hranici zákona - třeba torrenty, filmy, atd..
To by se docela šiklo... Vyhledávač online filmů. Google to totiž dost maže a stránky, které mají tento "černý" obsah se dost často mění, přesouvají...

 
Nahoru Odpovědět
14.2.2014 15:43
Avatar
Old Account
Člen
Avatar
Odpovídá na Lako
Old Account:14.2.2014 16:15

Bohuzial ta asi sklamem, ale nechceme sa pohybovat na hrane zakonu, a warez nepodporujeme (nebojujeme proti nemu, ale tiez ho verejne nepodporujeme), a touto cestou urcite nepojdeme. Konkurovat Google budeme z hladiska bezpecnosti uzivatelskych dat, pri ktorych zarucujeme maximalnu bezpecnost vdaka viac stupnovemu sifrovaniu uzivatelskych dat(i ked si dovolim tvrdit, ze uz teraz poskytujeme velmi presne vysledky hladania). Momentalne planujeme iba vyhladavanie webu, zvazujeme este vyhladavanie obrazkov, kazdopadne iste je zatial iba web search.

Nahoru Odpovědět
14.2.2014 16:15
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Benjibs
Člen
Avatar
Odpovídá na Old Account
Benjibs:14.2.2014 16:20

"Konkurovat google", keď to takto povieš, neznie to príliš reálne :D

Nahoru Odpovědět
14.2.2014 16:20
1 + 1 = 2
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:14.2.2014 16:39

ked som uvidel, ze uvazujes ukladat udaje do beznych suborov, tak to je potom ovela lepsie si zvolit relacnu databazu na udaje, nez klasicke subory...
pri suboroch musis naprogramovat aj logiku ukladania a tym sa ti zvysuje aj rezia ukladania dat...

 
Nahoru Odpovědět
14.2.2014 16:39
Avatar
Old Account
Člen
Avatar
Odpovídá na Benjibs
Old Account:14.2.2014 16:40

Heh, myslis si azda, ze Google neni mozne konkurovat ? Ked opominiem velkost indexu, ktory ma Google masivny, a pravdepodobne ho ziadny vyhladavac nikdy neprevisi, nevidim dovod aby bol Google neprekonatelny.

Nahoru Odpovědět
14.2.2014 16:40
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Benjibs
Člen
Avatar
Odpovídá na Old Account
Benjibs:14.2.2014 16:46

Tak je na začiatku ťažké porovnávať Google a bárskoho, kto napíše na fórum.

Nahoru Odpovědět
14.2.2014 16:46
1 + 1 = 2
Avatar
Old Account
Člen
Avatar
Odpovídá na Benjibs
Old Account:14.2.2014 16:56

To bezpochyb, nehovorim, ze prave nas vyhladavac moze byt lepsi nez Google, ktory tu uz je vyse 15 rokov. Len sa snazim povedat, ze to mozne je, ale ked sa o to nikto nepokusi, nikdy sa to nedozvieme.

To mkub: Udaje neukladame do beznych suborov, ale do noSQL db, konkretne ide o databazu HyperTable (Google's BigTable like db).

Nahoru Odpovědět
14.2.2014 16:56
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:14.2.2014 17:49

pochybujem, ze by si konkuroval takym, ako je Google, ci Bing,
lebo tieto vyhladavace su uz zabehnute, vyuzivaju ich cele masy ludi a nie je jednoduche masu ludi nahovorit, aby presli ku konkurencii... musel by si ich prekonat v kvalitnych vysledkoch vyhladavania
a okrem toho Google, ako aj Bing sa neustale vylepsuju, aby vysledky boli este lepsie a do vyvoja svojich vyhladavacov vrazaju miliardy dolarov...

skor sa mi zda ten tvoj projekt v porovnani s nimi iba ako obycajna domaca hracka (sorry, ale je to tak)

 
Nahoru Odpovědět
14.2.2014 17:49
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:14.2.2014 18:02

to je, ako keby si si poskladal na kolene auto a povedal, ze ides s tym konkurovat znacke BMW

 
Nahoru Odpovědět
14.2.2014 18:02
Avatar
Old Account
Člen
Avatar
Odpovídá na mkub
Old Account:14.2.2014 18:03

V poriadku, nikomu nazor neberiem, ale tvoj nazor je z casti nepravdivy. Zober si napriklad vyhladavac DuckDuckGo, tam je presne vidiet to, ze nemusis vrazat miliardy do niecoho, co vlastne ani nema kvalitu. Tam mozes vidiet to, ze nemusis ponukat vysledky lepsie ako Google, staci ich mat dostatocne relevantne, a poskytovat nieco, co Google nemoze (bezpecnost), a komunita sa vytvori. Nebudem sa hadat ze to je nieco velke, to som nikdy netvrdil, je to moja sukromna hracka, zatial.

Mimo ine, Google tiez nemal v zaciatkoch uzivatelsku zakladnu taku velku, ako ma teraz, nejak sa predsa zacat musi.

Nahoru Odpovědět
14.2.2014 18:03
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:14.2.2014 18:12

ked sa nieco robi, robi sa prvomrade pre ludi a nie pre to, aby si niekomu konkuroval... pred Googlom sme tu mali aj ine vyhladavace a vies, preco sa presadil?
prave preto, lebo mal lepsie a prijatelnejsie vysledky, nez vsetky ostatne vyhladavace a pani od Google ani neocakavali, ze budu konkurovat poprednym vyhladavacom...

prvomrade si zvazte, co ponuknete, ake sluzby a treba aj porozmyslat, ci ten trh vyhladavacov uz nie je nasyteny...
a co sa tyka konkurencieschop­nosti voci Google, tak to by ste museli makat denne minimalne 36 hodin, 7 dni v tyzdni

 
Nahoru Odpovědět
14.2.2014 18:12
Avatar
Old Account
Člen
Avatar
Odpovídá na mkub
Old Account:14.2.2014 18:22

Asi som sa zle vyjadril, ospravedlnujem sa. Samozrejme, nemame potrebu byt konkurentom Googlu, mozno co sa tyka bezpecnosti, ale prave to len kvoli uzivatelom.

Mimochodom, dobrym prikladom je aj Facebook. V dobe ked vznikal, bol uz celkom zabehnuty Myspace, a tiez do neho nevrazali astronomicke sumy (co sa zaciatku tyka, teda ked ho programoval len zucky & jeho spolubyvajuci. A kde je teraz ? Nechcem tym povedat, ze mame nutkanie byt najlepsi, najpouzivanejsi a vela dalsich naj, chcem len ukazat na to, ze nie vzdy je treba mat miliardy na reklamu a vyvoj, staci mat napad.

Nahoru Odpovědět
14.2.2014 18:22
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
mkub
Tvůrce
Avatar
Odpovídá na Old Account
mkub:14.2.2014 18:37

ani do Google sa takisto nevrazali spociatku astronomicke sumy, pred Google ty sme mali Yahoo, Infoseek, ALtavista,...
a Google prerazil zo vsetkych vyhladavacov iba vdaka kvalitnym vysledkom, co poskytoval),

co sa tyka Facebooku, to iste, Myspacesice bol, ale Mark a jeho spolocnici ani nemali z coho,lebo boli iba studentmi, ale mali dobry napad...

ak by ste sa chceli presadit, tak treba napad a kvalitu
a dobry napad + dobra kvalita veru aj nieco stoji a nejde o samotne konkurovanie voci inym... ak to ludia ocenia a ujme sa to, tak sa aj tento ciel sam dostavi...

 
Nahoru Odpovědět
14.2.2014 18:37
Avatar
Lako
Člen
Avatar
Odpovídá na Old Account
Lako:14.2.2014 19:22

Bezpečnost je sice hezká věc, ale moc lidí se na to nenaláká... A taky bezpečnost čeho? údajů které vyhledávám? Tím pádem by to mohl být dobrý porno-hledač - to je třeba jedna z věcí, které lidi nechcou aby o nich ostatní věděli.
Já ti fandím, ale chce to nějakou přidanou hodnotu, něco líbivého, proč bych to měl používat.

 
Nahoru Odpovědět
14.2.2014 19:22
Avatar
Old Account
Člen
Avatar
Odpovídá na Lako
Old Account:14.2.2014 19:45

Jedna taka vec by tu aj bola, no zatial to je iba napad v mojej hlave, a chvilku potrva, kym to prevediem do kodu, kedze by slo o dost velky zasah, kazdopadne si dovolim tvrdit, ze to zatial nikto iny neponuka.

Nahoru Odpovědět
14.2.2014 19:45
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Lako
Člen
Avatar
Odpovídá na Old Account
Lako:14.2.2014 20:09

Dobré. A nechceš to povědět o co se jedná?

 
Nahoru Odpovědět
14.2.2014 20:09
Avatar
Old Account
Člen
Avatar
Odpovídá na Lako
Old Account:14.2.2014 21:30

Ked bude ta ficurka uz aspon funkcna, napisem, zatial by som to nerad zakrikol.

Nahoru Odpovědět
14.2.2014 21:30
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Avatar
Old Account
Člen
Avatar
Old Account:15.2.2014 21:04

Uz dalej nechcem prispievat do tohot threadu, tak poprosim o lock. Vdaka.

Nahoru Odpovědět
15.2.2014 21:04
"If you keep your eye on the profit, you’re going to skimp on the product. But if you focus on making really gre...
Děláme co je v našich silách, aby byly zdejší diskuze co nejkvalitnější. Proto do nich také mohou přispívat pouze registrovaní členové. Pro zapojení do diskuze se přihlas. Pokud ještě nemáš účet, zaregistruj se, je to zdarma.

Zobrazeno 28 zpráv z 28.