Robots.txt fajl – šta je?

Robots.txt je tekstualni fajl koji se nalazi u root-u (korenu) domena i to je prvi dokument kome bot pristupa kada poseti web lokaciju. Zato je ovaj fajl i jedan od prvih stavki prilikom optimizacije sajta (search engine optimization).

Može se ispisati u običnom Notepad-u. On  definiše koje delove domena web crawler može da popiše, a koje ne. Ovaj fajl takođe može da sadrži vezu do XML-mape sajta. Pomoću robots.txt, pojedinačne datoteke u direktorijumu, kompletni direktorijumi, poddirektorijumi ili celi domeni mogu biti isključeni iz popisivanja od strane botova. Botovi najvećih pretraživača kao što su Google i Bing prate uputstva koja su im data preko ovog fajla. Ipak, nema garancije da će se svaki bot pridržavati zahteva datih u robots.txt.

Robots.txt fajl – bezbednost?

Neki roboti ovaj fajl jednostavno mogu ignorisati, kao što su malware ili spam botovi. Pošto je do ovog fajla lako doći, važno je istaći da ga ne bi trebalo koristiti za sakrivanje važnih podataka. Bezbednost tih podataka bi mogla biti ugrožena.

Šta vidimo u robots.txt fajlu?

Ovaj ćemo fajl otvoriti kada u pretragu unesemo www.domen.com/robots.txt. Obično ćemo zateći sledeću situaciju:

  • User-agent: *
  • Disallow:
  • Sitemap: https://domen.com/sitemap_index.xml

Na ovaj način smo u prvom redu saopštili da se obraćamo svim robotima (* je univerzalni parametar). U drugom redu kažemo da je robotima, kada već pristupe, omogućeno popisivanje svih elemenata lokacije. Odnosno, pošto iza “Disallow:” nema ništa, znači ne zabranjujemo pristup ničemu.

U trećem redu vidimo mapu sajta koja se obično tu nalazi.

Imamo i drugačije situacije:

  • User-agent: Googlebot
  • Disallow: /

U ovom slučaju, kažemo da se obraćamo Google botovima. Zatim, u drugom redu, kažemo da upravo tim botovima zabranjujemo pristup svim elementima lokacije (/). Drugim rečima, ne želimo da Google bilo šta indeksira.

  • User-agent: *
  • Disallow: /

Ako želimo svim botovima da zabranimo indeksiranje svega na sajtu, imaćemo gore navedenu situaciju. Ipak, trebalo bi da imamo na umu da neće svi roboti poštovati tzv. Robots Exclusion Protocol (obično spam i malwere botovi ga ne poštuju).

U ovom slučaju ne želimo da Yahoo!-ov robot koji se naziva Slurp indeksira a-folder.

  • User-agent: Googlebot
  • Disallow:
  • User-agent: *
  • Disallow: /

U ovom slučaju želimo da Google roboti indeksiraju sve, a svim ostalim robotima je zabranjeno indeksiranje.

  • User-agent: *
  • Disallow: /tmp/
  • Disallow: /junk/

U ovom slučaju ne dozvoljava se pristup robotima, ali samo za određene direktorijume.

Značaj robots.txt fajla

Ovaj fajl je jedan od načina da se kontrolišu botovi, pa je stoga veoma bitan. Ukoliko ne želimo da se neka stranica nađe u rezultatima pretrage, za šta postoji više razloga, možemo koristiti upravo ovaj fajl. U procesu izrade sajta i testiranja, kao i u cilju sprečavanja dupliranja sadržaja i rasipanja link juice-a, ovaj je fajl veoma koristan.

Robots meta oznake

Pored robots.txt fajla, postoje i robots meta oznake koje se upisuju u head sekciju HTML koda.

Uputstvo za robote : indeksiraj i prati linkove:

  1. <meta name=”robots” content=”index, follow”>

Uputstvo za robote : ne indeksiraj, ali prati linkove:

  1. <meta name=”robots” content=”noindex, follow”>

Uputstvo za robote : indeksiraj, ali nemoj pratiti linkove:

  1. <meta name=”robots” content=”index, nofollow”>

Uputstvo za robote : ne indeksiraj i ne prati linkove:

  1. <meta name=”robots” content=”noindex, nofollow”>