Diskuze: Zaujem vo vyvoji vyhladavaca
Člen
Zobrazeno 28 zpráv z 28.
//= Settings::TRACKING_CODE_B ?> //= Settings::TRACKING_CODE ?>
Myslim ze sme sa nepochopili. Ide o webovy vyhladavac, ktory mozno prirovnat k Google, Bing, DuckDuckGo.
Mě by jedna věc zajímala. Na jakém principu funguje vyhledávací algoritmus pro dlouhé texty? Měli jsme o tom mít ve škole přednášku, ale nakonec vybrali jinné téma.
Nazyva sa to full text-ove vyhladavanie, a pracuje na principe indexovania suborov (nie je to pravidlo, ale zvacsa to tak byva). Cely proces indexovania prebieha asi takto: Web Spider (tiez nazyvany bot, pr. Google Bot) prehladava internetove stranky (vo vacsine pripadov ide o backlink algoritmus), a snazi sa najst do najvacsi pocet linkov, ktore odosle na spracovanie pre Web Crawler (v tejto casti vyhladavaca prebieha vlastne cele indexovanie stranok), ktory na dannej webovej stranke hlada odkazy smerujuce na ine domeny (aka Backlink algoritmus), a tie nasledne indexuje a uklada do databaze. Povedzme, ze sa jedna o webovu stranku seznam.cz, ktora je zaindexovana. Kazda stranka, a jej podstranky (clanky, subpages, etc.) ma v databazi vyhodnotene keywords, ktore vyhladavaci algoritmus porovnava s uzivatelom zadanymi slovami, a v pripade zhody zaradi stranku do vysledkov hladania (je to ovela komplexnejsie, hodnotit stranky mozno podla mnoho faktorov, a tak ziskat velmi presny vysledok).
A co si ze stránky bude tvůj vyhledávač pamatovat?
Před rokem jsem si udělal PHP script co hledal na stránkách odkazy na
další stránky a vždy si pamatoval titulek, keywords a nadpisy. Skončil jsem
tím, že mi to naplnila DB tak rychle, že jsem to nečekal.
Predpokladam, ze si pouzil klasicku relacnu databazu, a tam je ten problem. Pre pracu s tak velkymi datami je dolezite vybrat (pripadne vytvorit) spravnu databazu, ktora s nimi moze plnohodnotne pracovat, a k tomu je potreba non-relational DB (noSQL), a najlepsie je pouzit aj nejaky filesystem, napriklad Hadoop. Moj vyhladavac uklada rozne faktory, ako napriklad keywords, nadpisy, title stranky, urcite microdata a mnoho inych faktorov, podla ktorych ziska webova stranka hodnotenie.
Držím palce... jen mě teď napadlo, zda to není Hlodač?
Heh, Mr. Hejl Kazdopadne, hlodac to urcite nie je, uz len z niekolkych dovodov, napriklad z toho, ze nasou prioritou nie je byt lepsi ako Google, ale poskytovat lepsiu bezpecnost ako Google, nehladame ziadnych investorov, ktorych by sme mohli osklbat o peniaze, alebo dokonca mat vsade reklamu a robit SEO na zakazku, a teda bude mat lepsi ranking ten, kto zaplati. Tiez sa nesnazime napodobnovat algoritmy Google, ale vyvijame vlastne. Heh, a asi najdolezitejsi rozdiel je ten, ze mame naozaj nieco, co funguje.
A co bude vyhledávat?
Asi by nebylo špatný se zaměřit na něco, kde můžete googlu konkurovat...
Což jsou takové věci na hranici zákona - třeba torrenty, filmy, atd..
To by se docela šiklo... Vyhledávač online filmů. Google to totiž dost
maže a stránky, které mají tento "černý" obsah se dost často mění,
přesouvají...
Bohuzial ta asi sklamem, ale nechceme sa pohybovat na hrane zakonu, a warez nepodporujeme (nebojujeme proti nemu, ale tiez ho verejne nepodporujeme), a touto cestou urcite nepojdeme. Konkurovat Google budeme z hladiska bezpecnosti uzivatelskych dat, pri ktorych zarucujeme maximalnu bezpecnost vdaka viac stupnovemu sifrovaniu uzivatelskych dat(i ked si dovolim tvrdit, ze uz teraz poskytujeme velmi presne vysledky hladania). Momentalne planujeme iba vyhladavanie webu, zvazujeme este vyhladavanie obrazkov, kazdopadne iste je zatial iba web search.
"Konkurovat google", keď to takto povieš, neznie to príliš reálne
ked som uvidel, ze uvazujes ukladat udaje do beznych suborov, tak to je potom
ovela lepsie si zvolit relacnu databazu na udaje, nez klasicke subory...
pri suboroch musis naprogramovat aj logiku ukladania a tym sa ti zvysuje aj
rezia ukladania dat...
Heh, myslis si azda, ze Google neni mozne konkurovat ? Ked opominiem velkost indexu, ktory ma Google masivny, a pravdepodobne ho ziadny vyhladavac nikdy neprevisi, nevidim dovod aby bol Google neprekonatelny.
Tak je na začiatku ťažké porovnávať Google a bárskoho, kto napíše na fórum.
To bezpochyb, nehovorim, ze prave nas vyhladavac moze byt lepsi nez Google, ktory tu uz je vyse 15 rokov. Len sa snazim povedat, ze to mozne je, ale ked sa o to nikto nepokusi, nikdy sa to nedozvieme.
To mkub: Udaje neukladame do beznych suborov, ale do noSQL db, konkretne ide o databazu HyperTable (Google's BigTable like db).
pochybujem, ze by si konkuroval takym, ako je Google, ci Bing,
lebo tieto vyhladavace su uz zabehnute, vyuzivaju ich cele masy ludi a nie je
jednoduche masu ludi nahovorit, aby presli ku konkurencii... musel by si ich
prekonat v kvalitnych vysledkoch vyhladavania
a okrem toho Google, ako aj Bing sa neustale vylepsuju, aby vysledky boli este
lepsie a do vyvoja svojich vyhladavacov vrazaju miliardy dolarov...
skor sa mi zda ten tvoj projekt v porovnani s nimi iba ako obycajna domaca hracka (sorry, ale je to tak)
to je, ako keby si si poskladal na kolene auto a povedal, ze ides s tym konkurovat znacke BMW
V poriadku, nikomu nazor neberiem, ale tvoj nazor je z casti nepravdivy. Zober si napriklad vyhladavac DuckDuckGo, tam je presne vidiet to, ze nemusis vrazat miliardy do niecoho, co vlastne ani nema kvalitu. Tam mozes vidiet to, ze nemusis ponukat vysledky lepsie ako Google, staci ich mat dostatocne relevantne, a poskytovat nieco, co Google nemoze (bezpecnost), a komunita sa vytvori. Nebudem sa hadat ze to je nieco velke, to som nikdy netvrdil, je to moja sukromna hracka, zatial.
Mimo ine, Google tiez nemal v zaciatkoch uzivatelsku zakladnu taku velku, ako ma teraz, nejak sa predsa zacat musi.
ked sa nieco robi, robi sa prvomrade pre ludi a nie pre to, aby si niekomu
konkuroval... pred Googlom sme tu mali aj ine vyhladavace a vies, preco sa
presadil?
prave preto, lebo mal lepsie a prijatelnejsie vysledky, nez vsetky ostatne
vyhladavace a pani od Google ani neocakavali, ze budu konkurovat poprednym
vyhladavacom...
prvomrade si zvazte, co ponuknete, ake sluzby a treba aj porozmyslat, ci ten
trh vyhladavacov uz nie je nasyteny...
a co sa tyka konkurencieschopnosti voci Google, tak to by ste museli makat
denne minimalne 36 hodin, 7 dni v tyzdni
Asi som sa zle vyjadril, ospravedlnujem sa. Samozrejme, nemame potrebu byt konkurentom Googlu, mozno co sa tyka bezpecnosti, ale prave to len kvoli uzivatelom.
Mimochodom, dobrym prikladom je aj Facebook. V dobe ked vznikal, bol uz celkom zabehnuty Myspace, a tiez do neho nevrazali astronomicke sumy (co sa zaciatku tyka, teda ked ho programoval len zucky & jeho spolubyvajuci. A kde je teraz ? Nechcem tym povedat, ze mame nutkanie byt najlepsi, najpouzivanejsi a vela dalsich naj, chcem len ukazat na to, ze nie vzdy je treba mat miliardy na reklamu a vyvoj, staci mat napad.
ani do Google sa takisto nevrazali spociatku astronomicke sumy, pred Google
ty sme mali Yahoo, Infoseek, ALtavista,...
a Google prerazil zo vsetkych vyhladavacov iba vdaka kvalitnym vysledkom, co
poskytoval),
co sa tyka Facebooku, to iste, Myspacesice bol, ale Mark a jeho spolocnici ani nemali z coho,lebo boli iba studentmi, ale mali dobry napad...
ak by ste sa chceli presadit, tak treba napad a kvalitu
a dobry napad + dobra kvalita veru aj nieco stoji a nejde o samotne konkurovanie
voci inym... ak to ludia ocenia a ujme sa to, tak sa aj tento ciel sam
dostavi...
Bezpečnost je sice hezká věc, ale moc lidí se na to nenaláká... A taky
bezpečnost čeho? údajů které vyhledávám? Tím pádem by to mohl být
dobrý porno-hledač - to je třeba jedna z věcí, které lidi nechcou aby o
nich ostatní věděli.
Já ti fandím, ale chce to nějakou přidanou hodnotu, něco líbivého, proč
bych to měl používat.
Jedna taka vec by tu aj bola, no zatial to je iba napad v mojej hlave, a chvilku potrva, kym to prevediem do kodu, kedze by slo o dost velky zasah, kazdopadne si dovolim tvrdit, ze to zatial nikto iny neponuka.
Ked bude ta ficurka uz aspon funkcna, napisem, zatial by som to nerad zakrikol.
Uz dalej nechcem prispievat do tohot threadu, tak poprosim o lock. Vdaka.
Zobrazeno 28 zpráv z 28.