Pretraživač (pregledač ili web browser) je zapravo program koji ima funkciju interpretatora (tumač, prevodilac). On prima i izvršava naredbe koje se zadaju u drugim programima napisanim u interpretatorskim jezicima. Time se postiže lako pretraživanje web stranica od strane korisnika.
Početkom 90-tih godina jedan od ljudi zaposlenih u CERN-u razvio je pretraživač namenjen za čitanje samo tekstualnih sadržaja. Od tog trenutka kreće prava borba za prevlast kompanija u ovoj oblasti. Cilj je bio razviti što kvalitetniji pretraživač i lakši za korišćenje. Razvili su se i grafički pretraživači koji sem tekstualnih nude i multimedijalne sadržaje.
Danas je u ponudi veliki broj pretraživača. Neki pretraživači su posebno namenjeni samo određenim operativnim sistemima.
Najzastupljeniji pretraživač trenutno je Google Chrome, posebno kada govorimo o Evropi. On je u vlasništvu kompanije Google, a izrađen na softveru otvorenog koda WebKit. Nudi korisnicima razne besplatne usluge, kao što su prevođenje, otvaranje email adrese, aktiviranje Google analitike, alatke različitih funkcionalnosti i puno toga još.
Pored Google Chrome, tu su Firefox, Opera, Internet Explorer koji se sve manje koristi. Safari je namenjen uređajima Apple kompanije, ali od 2007. godine postoji i verzija za korišćenje na Windows operativnom sistemu.
Pretraživači koji se danas najčešće koriste
Ako je reč o Evropi, onda Google Chrome ima ogroman primat. U najmnogoljudnijoj državi, Kini, Google je zabranjen i tamo se koristi Baidu. U Rusiji nije zabranjen, ali se najviše koristi Yandex. U Americi je dosta zastupljen Yahoo, Bing i još neki pretraživači.
Pored Google-a, na našim prostorima je, ako govorimo o tome šta ljudi najčešće koriste u potrazi za određenim sadržajima, drugi najzastupljeniji pretraživač zapravo YouTube. Sve veći broj ljudi određene stvari traži direktno unoseći pretragu na YouTube. Na taj način ljudi obično upućuju tzv. INFORMATION QUERY – kada žele da dođu do podataka informativnog karaktera. Na primer, ako osoba želi da sazna kako se pravi određeni kolač, ako želi da odgleda neki video ili sluša muziku, jednostavno će uneti frazu u YouTube pretragu. Sa druge strane, ako osoba želi da kupi neki kolač, onda će potražiti poslastičarnice, a Google pretraživač će nam pokazati poslastičarnice u našoj blizini, a ne YouTube.
Takođe, obično se u zapadnim zemljama, prilikom potraga vezanim za kupovine raznih proizvoda koristi Amazon pretraga ili pretraga neke druge eBay platforme (na primer AliBaba).
Pretraživač - kako radi?
Kako bi pretraživač ispunio svoj zadatak na odgovarajući način, on vrši neke bitne funkcije:
- Popisivanje (crawling) je sistematsko pretraživanje interneta u cilju praćenja veza i otkrivanja stranica na web-u, a od strane tzv. web crawler-a, botova, robota ili spider-a
- Indeksiranje (indexing) je smeštanje stranica u indeks pretraživača, odnosno čuvanje istih u bazi podataka na način koji omogućava kasnije efikasno preuzimanje
- Rangiranje (ranking) je proces u toku kog pretraživač određuje šta je za web stranice relevantan sadržaj i rangira stranice prema tome za određene upite
Šta je crawler ili google bot (crawlering – puzanje)?
Web crawler, web spider ili bot je zapravo internet robot koji ima funkciju pretraživanja interneta u cilju indeksiranja web stranica. On skenira stranice koje poseti kako bi pronašao linkove, prati te linkove, skenira njihove sadržaje, numeriše svaku stranicu i beleži podatke kako bi se međusobno lakše razlikovale. Kasnije ih drugi spider program obradi i indeksira, odnosno smesti tamo gde pripadaju prema relevantnosti sadržaja koje nude.
Crawler kreće u potragu za web lokacijama koje se nazivaju semena. Prilikom posete on prepoznaje hiperveze na tim lokacijama i stavlja ih na listu web lokacija koje će da poseti. Usled ogromnog broja web lokacija, crawler može posetiti samo određeni broj u određenom vremenskom periodu, odnosno broj poseta nije neograničen, a posećivanje iziskuje određene troškove. U tom smislu je veoma bitan prioritet posećivanja stranica, pri čemu je cilj da se servira kvalitetan, relevantan i svež sadržaj.
Načini kontrolisanja Google botova
Pošto znamo da kretanje bota nije neograničeno, ali u nekim situacijama nije ni poželjno da skenira sve URL-ove, nad tim procesom bi trebalo uspostaviti određenu kontrolu. Postoji više načina kojima saopštavamo botu da zaobiđe određene URL-ove, da se umesto ciljanih URL-ova otvore druge lokacije i da umanjimo značaj jednih ukazujući na značaj drugih lokacija. Tim postupcima sprečavamo neracionalno rasipanje link juice-a, dupliranje sadržaja, prikazivanje sadržaja koje trenutno trajno ne želimo da se prikažu i prikazivanje 404 greške koja ukazuje na to da stranica više ne postoji. Načini za kontrolisanje Google botova su sledeći:
Kako će se crawler ponašati u tom smislu diktiraju mu sledeće četiri politike:
- politika izbora – definiše koje se stranice preuzimaju
- politika ponovne posete – definiše kada je potrebno obaviti proveru da li se na stranici desila promena
- politika “pristojnosti” – definiše načine kako izbeći preopterećenje sajtova
- politika paralelizacije – definiše kako upravljati poslatim crawler-ima u cilju sprečavanja višestrukog preuzimanja iste stranice
Šta je indeksiranje (indexing) i rangiranje (ranking)?
Postavlja se pitanje kako pretraživač zna šta da nam servira i koji su sadržaji najrelevantniji za zadate upite? Tokom dugog niza godina razvijani su sistemi za razvrstavanje sadržaja koji su u sve većoj meri isključivali čoveka, a uključivali računarski program. Pojavom baza podataka sa povećavanjem i usložnjavanjem istih, dolazi i do rada na unapređivanju tih baza u cilju ubrzavanja prikaza traženih podataka. U tom smislu, indeksiranje stranica predstavlja proces pregleda stranica i svrstavanja istih u određene kataloge kako bi se do njih po potrebi lakše i brže dolazilo. Program pregleda stranicu, utvrđuje šta se na toj stranici nalazi, određuje format stranice i druge potrebne podatke.
Ovde se zapravo radi o prepoznavanju sadržaja koji se nalazi na web stranici od strane web pretraživača. Nakon prepoznavanja dolazi do indeksiranja, odnosno svrstavanja u određene kataloge, tj. Google index. Kada toga ne bi bilo, podaci bi morali da se traže u ogromnom moru stranica, što bi iziskivalo mnogo vremena i troškova. Google zato sebi indeksiranjem predefiniše koja stranica pripada kom entitetu, niši ili klasteru i mnogo je efikasnije isporučuje prilikom upita. To nam govori i koliko je relevantnost i jasnoća sadržaja bitna kako bi Google tačno razumeo u koju “fioku” da ubaci koju stranicu. Takođe nam govori i da je dupliranje sadržaja, kao i drugi načini trošenja vremena i ostalih Google-ovih resursa koji su ipak ograničeni, nepoželjno ponašanje i da Google teži da ga kazni. Te kazne mogu biti različite, a obično se tiču izbacivanja iz indeksa, odnosno potpune nevidljivosti na internetu ili lošeg pozicioniranja.
Kada robot obavi skeniranje, obavlja se definisanje glavnog indeksa koji je baza odakle se dolazi do konkretnog indeksa. Sve ovo doprinosi velikoj brzini i efikasnosti pretraživača, kada je reč o serviranju sadržaja nakon unošenja tzv. ključnih reči u pretragu.
Indeksiranje u velikoj meri zavisi od linkova, odnosno od onih linkova koji idu sa stranice (izlazni) i onih koji upućuju na stranicu (ulazni). Zato se nikada precizno ne može odrediti koliko je vremena potrebno da neka stranica bude vidljiva prilikom pretrage.
Šta je PageRank?
PageRank je proces koji omogućava određivanje popularnosti (autoriteta) određene stranice, a ne čitavog web sajta. Ali kako steći visoku popularnost? Kako biti autoritet u očima Google-a? Pa tako što će Google da poveruje ili shvati da je stranica od velikog značaja za određenu oblast, a u to će da ga ubede linkovi koji vode sa drugih popularnih stranica do te stranice. Naravno, to ne mogu biti bilo kakvi linkovi. Oni se moraju nalaziti na lokacijama relevantnim za istu oblast, dobro je i da sami imaju dobar PageRank i da ih je što više. Drugim rečima, ako je neko već autoritet u nekoj oblasti i linkujući na našu stranicu šalje poruku da i nas preporučuje kao relevatan faktor u toj oblasti, Google-u se jasno stavlja do znanja da smo bitni. Ako je stranica na Google značajna za autoritete, prihvaćena od korisnika i posećena, i sam Google dobija na ugledu i nagrađuje stranicu visokim PageRank-om.
Svi izlazni linkovi jedne stranice međusobno dele PageRank, pa je zato dobro dobiti link koji dolazi sa stranice sa visokim PageRank, ali malim brojem izlaznih linkova (outbound links). To ujedno znači i da je na našu stranicu linkovao neko od autoriteta ko ne deli olako preporuke i ne linkuje na druge bez pokrića.
PageRank skala
PageRank je logaritamska funkcija i ne povećava se linearno. Pomoću iteracija se vrše proračuni i dobija se verovatna vrednost, tj. verovatnoća da korisnik klikne na link. Takođe postoji i nešto što se naziva damping factor, odnosno faktor odustajanja, verovatnoća da će korisnik u nekom trenutku odustati od ideje da klikne na linkove na stranicama koje posećuje. Sve se to odražava na vrednost PageRank-a. Pošto se vrednosti PR kreću na skali od 1 do 10, mnogo se lakše dolazi od 1 do 5, nego od 5 do 6 ili od 6 do 7. Iako se smatra veoma bitnim faktorom, PR ipak nije presudan u rangiranju stranice u SERP-u, već samo jedan od mnogih.
Takođe se dodatno vrednuju stranice koje izlaze na prvoj strani SERP-a ukoliko jedna na drugu međusobno linkuju.
Zanimljivo je da je PageRank patent vlasništvo Univerziteta Stenford, a Google ima ekskluzivnu licencu za njega. Patent je dobio ime po prezimenu naučnika koji je na njemu radio (Larry Page).
Ako na nekoj stranici nema izlaznih linkova, tada se PR ravnomerno raspoređuje na tu i sve ostale stranice.
Blackhat - linkovi
Zbog raznih malverzacija u ovoj oblasti, mogućnosti kupovanja linkova i slično, Google je razvio algoritme koji prepoznaju takve radnje i kažnjavaju ih. Postoje i tzv. farme linkova koji se za male pare mogu kupovati, a zlonamerni akteri koji se bave blackhat-om i u cilju nanošenja štete nekim web sajtovima kupuju veliki broj tih linkova koje potom upućuju ka sajtu kojem žele da naštete. To su toksični linkovi koji se u najkraćem roku moraju ukloniti, tj. prijaviti kao takvi, a kako ih Google ne bi protumačio kao loše ponašanje od strane ciljanog sajta.
SEO OPTIMIZACIJA ZA PRETRAŽIVAČE