Šta je WDF*IDF?
Izraz “WDF*IDF” označava “Within Document Frequency * Inverse Document Frequency”. To je formula koja se koristi u obradi prirodnog jezika, posebno u kontekstu optimizacije za pretraživače (SEO). Na osnovu ove formule pretraživač određuje kvalitet sadržaja vezano za određenu temu.
Šta je WDF?
WDF (Within Document Frequency): Ova komponenta formule fokusira se na frekvenciju pojma unutar određenog dokumenta (veb stranice, članka itd.). Pomaže u merenju koliko se često određeni pojam pojavljuje u sadržaju tog dokumenta.
Šta je IDF?
IDF (Inverse Document Frequency): Ova komponenta formule procenjuje značaj pojma širom različitih dokumenata. Razmatra koliko je jedinstven ili redak pojam unutar većeg skupa dokumenata. Ako je pojam redak i pojavljuje se samo u nekoliko dokumenata, smatra se važnijim.
Zašto je važna vrednost WDF*IDF formule?
U kontekstu SEO-a, formula WDF*IDF pomaže identifikaciji pojmova koji su relevantni za određeni sadržaj i istovremeno se izdvajaju u odnosu na širi skup dokumenata na internetu. Ovo može pomoći u kreiranju sadržaja koji ne samo da je bogat relevantnim pojmovima već se i ističe u odnosu na konkurenciju. Važno je napomenuti da, iako WDF*IDF može biti korisno sredstvo, to je samo jedan od mnogih faktora koje pretraživači uzimaju u obzir prilikom rangiranja sadržaja.
WDF*IDF i/ili keyword density?
WDF*IDF služi za određivanje stepena optimalnosti u smislu korišćenja ključnih reči, relevantnih termina i pojmova u tekstu za određenu temu. Međutim, ova formula obuhvata i semantički kontekst, a ne samo gustinu određenih termina.
Početkom 2000-tih, bilo je najbitnije da se u tekstu nađe što više ključnih reči kako bi se neki web sajt što bolje rangirao. Pošto je to dovelo do pogoršanja sadržaja i utrkivanja u postavljanju mnogo ključnih reči tamo gde im i nije mesto, kao optimum je postavljen standard od 3-7% ključnih reči. Međutim, danas tzv. KEYWORD DENSITY više ne važi. Relevantan je upravo WDF*IDF pokazatelj.
WDF*IDF – ocena kreativnosti?
Pošto je ogroman broj članaka koji svakog trenutka pojavljuju na internetu, a vezano za određenu temu, jasno je da je i veliki problem kako oceniti šta je dovoljno dobro, relevantno i kreativno. Kao odgovor na to, pojavila se matematička formula za ocenjivanje kreativnosti. Pomalo neobično, zar ne?
WDF*IDF – formula?
Pozicioniranje na Google je u direktnoj vezi sa dominacijom za određenu ključnu reč ili frazu na internetu, što znači da se URL-ovi takmiče za te ključne reči. Mehanizam koji omogućava to takmičenje je dat prema formuli:
w =WDF*IDF
- WDF (within document frequency)– faktor koji je srazmeran učestalosti ključne reči u dokumentu
- IDF (inverse document frequency) – faktor koji je srazmeran recipročnoj vrednosti učestalosti ključne reči u odnosu na skup svih ostalih URL-ova u kojima se nalazi ta ključna reč na čitavom internetu. IDF je, zapravo, rejting popularnosti.
WDF*IDF – originalnost i korak napred
Prilikom pisanja teksta na neku temu, Google analizira dati sadržaj i pronađe odgovarajuće delove koji se podudaraju sa onim o čemu su i svi ostali pisali na istu temu na internetu. Međutim, suština je da Google pronađe i delove koji su u potpunosti relevantni u vezi sa datom temom, a koje drugi nemaju.
Google poredi određenu landing stranicu sa svim drugim indeksiranim landing stranicama za datu ključnu reč.
Da bismo proverili koliko je stranica relevantna za određenu ključnu reč možemo u pretragu ukucati sledeće:
Intitle: “kljucna rec”
Dobicemo na vrhu broj koji nam govori koliko se stranica odnosi na tu zadatu ključnu reč (umesto kljucna rec upisemo termin koji nas zanima).
SEOLYZE – jedan od WDF*IDF alata
Jedan od preporučenih tool-ova koji obuhvata ovu vrstu računanja je SEOLYZE.
Kada definišemo Google verziju (za državu i jezik), a potom ubacimo tekst koji smo već negde unapred ispisali, dobićemo odgovorajući grafički prikaz. Na osnovu njega utvrdićemo koliko je dobro postavljenih reči, sa kojim pojmovima smo preterali, koji se moraju smanjiti i koji nedostaju (tim redosledom u donjim pravougaonicima):
Na sledećim slikama imamo grafikone koji se analiziraju. Prva slika se odnosi na veliki broj pojmova, pa u cilju jednostavnosti taj broj možemo smanjiti. Ipak, što je veći broj, to bolje.
Tamno narandžasti stubovi su prosečno stanje na tržištu, a svetlo narandžasti region su maksimalne vrednosti na tržištu. Crna izlomljena linija je sadržaj koji posmatramo. Cilj je postići da se ova crna linija kreće između proseka i maksimuma. Bitno je da nemamo maksimuma, ali ni minimuma, pa čak i kada je reč o širem pregledu, kao na prvoj slici. Kada je crna linija u novou x ose, to nam govori koje su reči izostavljene, a trebalo bi da ih ima u tekstu. Često se na tom mestu i ubace neki tzv. stop word-ovi, kao što su: ali, više, manje, kako i sl. Na njih ne bi trebalo da obraćamo pažnju. Možemo ih jednostavno isključiti.
Iz navedene analize čitamo šta smo uradili. Iznad linija su prosečni rezultati, a ispod kako smo mi to uradili. Crveno označeni rezultati su problematični. U ovom slučaju problemi su sledeći:
- Ne postoji H1
- Ne postoji meta deskripcija
- Title, odnosno naslov, je kratak
Ako izaberemo dugme very high proof, dobićemo reči koje su najbitnije u našoj kalkulaciji. Na osnovu date slike već uviđamo neke probleme:
- Nema reči koren i list koji se očekuju u stručnom članku o čaju
- Postoji puno nerelevantnih pitanja koja počinju sa kako, koji i što
- Vidimo i previše reči “čaja”, tj. genitiv od čaj, ali padeže na grafiku možemo ignorisati jer je to specifičnost jezika
- Vidimo da smo preterali sa rečju “krvi”
Optimalan sadržaj
Trebalo bi da pokušamo da nam ova crna linija ide po sredini, tj između tamno narandžastih stubića i linije kojom se završaja svetlo narandžasta oblast. Takva popravka će doprineti velikom skoku u pozicioniranju. Ipak, to zavisi i od niše jer su neke niše prezahtevne u ovom smislu i postoji brojna konkurencija sa kvalitetnim sadržajem i ogromnim brojem kvalitetnih backlink-ova. Ako imamo odličan tekst koji je koristan za publiku dobijaćemo veliki broj organskih backlink-ova, za razliku od loših i štiruh tekstova, pa možemo da se nadamo brzim rezultatima u smislu pozicioniranja. Da bi se loši tekstovi pozicionirali, potrebno je veliko ulaganje u kupovinu backlink-ova i bavljenje drugim vrstama blackhat-a. Znači, uvek je bolje dostići kvalitet i igrati u potpunosti u skladu sa pravilima i standardima kvaliteta.
Ponekad je konstrukcija rečenica problematična, počinje nekim pitanjima ili je nekarakteristična za datu nišu. Znači, trebalo bi obratiti pažnju i na stil pisanja.
Primer korišćenja više povezanih reči
Možemo proveriti i kombinacije sa 1, 2 ili tri povezane reči, što takođe može biti korisno i dati nam indikaciju šta se još na internetu koristi kada je u pitanju određena tema.
Tek iz primera sa 3 reči vidimo da smo preterali sa glavnom ključnom frazom, a to je u ovom slučaju “čaj od koprive”. Zašto? Zato što kvalitetom i dužinom sadržaja nismo ubedili Google da smo autoritet na datu temu. Tek kada se nađemo na nekom od prva tri mesta na SERP-u možemo sebi dozvoliti da sami postavimo novi maksimum, ali i tada je pitanje da li će nam Google to dozvoliti. Može nas nagraditi još boljom pozicijom, ako nismo prvi, ili nas baciti na neku dalju poziciju. Tako ćemo sami videte koliko je naš tekst autoratitivan.
Najbolji pokazatelj je kada dođemo do 3-word analize i zaključimo da su nam svi parametri dobri, ne računajući samo padeže.
LATENT SEMANTIC ANALYSIS – LSI
LSI pomaže Google-u u ocenjivanju relevantnosti sadržaja. To je deo WDF-a, a najbolje ga objasniti na primeru:
Ako tekst sadrži pojam drvo, očekuju se reči kao što su stablo, list, zemlja, plod, insekti, itd.
LSI je faktor koji nam govori koliko smo blizu temi o kojoj pišemo u smislu terminologije koju koristimo. Znači, uzme se jedan keyword i meri se LSI tog keyword-a. LSI onda ukazuje na to koji je deo ispisan očekivanom terminologijom, a u kom delu je očekivana terminologija izostala. Na osnovu računanja dobijemo pokazatelje onoga što nedostaje i šta bi trebalo obuhvatiti u smislu srodnosti. LSI je integrisan u WDF, ali je i preteča WDF-a.
Druga bitna karakteristika LSI-a je to što procenjuje i stepen sofisticiranosti korišćenog vokabulara. On prepoznaje narodni, mainstream, pravni, medicinski i ostale jezike. Na vrhu je, naravno, naučni jezik.
SEO OPTIMIZACIJA ZA PRETRAŽIVAČE