Kako urediti datoteko robots txt. Kako urediti datoteko robots txt Kaj napisati v robots txt

23.01.2024

Iskalni roboti - pajki se začnejo seznanjati s spletnim mestom z branjem datoteke robots.txt. Vsebuje vse informacije, ki so zanje pomembne. Lastniki spletnih mest bi morali ustvariti in redno analizirati robots.txt. Od pravilnosti delovanja sta odvisna hitrost indeksiranja strani in uvrstitev v rezultate iskanja.

Ni obvezen element spletnega mesta, vendar je njegova prisotnost zaželena, saj z njegovo pomočjo lastniki spletnih mest upravljajo iskalne robote. Nastavite različne ravni dostopa do spletnega mesta, ki prepovedujejo indeksiranje celotnega spletnega mesta, posameznih strani, razdelkov ali datotek. Pri virih z velikim prometom omejite čas indeksiranja in onemogočite dostop robotom, ki ne pripadajo glavnim iskalnikom. To bo zmanjšalo obremenitev strežnika.

Ustvarjanje. Ustvarite datoteko v urejevalniku besedil Notepad ali podobnem. Prepričajte se, da velikost datoteke ne presega 32 KB. Za datoteko izberite kodiranje ASCII ali UTF-8. Upoštevajte, da mora biti datoteka edinstvena. Če je spletno mesto ustvarjeno na CMS, bo generirano samodejno.

Ustvarjeno datoteko postavite v korenski imenik spletnega mesta poleg glavne datoteke index.html. Za to se uporablja FTP dostop. Če je spletno mesto narejeno na CMS, potem se datoteka obdela preko upravne plošče. Ko je datoteka ustvarjena in deluje pravilno, je na voljo v brskalniku.

Če datoteke robots.txt ni, iskalni roboti zbirajo vse informacije, povezane s spletnim mestom. Ne bodite presenečeni, ko boste med rezultati iskanja videli prazne strani ali informacije o storitvi. Določite, kateri deli spletnega mesta bodo na voljo uporabnikom, ostale pa zaprite pred indeksiranjem.

Pregled. Občasno preverite, ali vse deluje pravilno. Če pajek ne prejme odgovora 200 OK, potem samodejno domneva, da datoteka ne obstaja in je spletno mesto popolnoma odprto za indeksiranje. Kode napak so naslednje:

3xx - posredovanje odgovorov. Robot je usmerjen na drugo stran ali na glavno stran. Na eni strani ustvarite do pet preusmeritev. Če jih je več, bo robot tako stran označil kot napako 404. Enako velja za preusmeritve po principu neskončne zanke.

4xx - odgovori na napake spletnega mesta. Če pajek prejme napako 400 iz datoteke robots.txt, ugotovi, da datoteka ne obstaja in je vsa vsebina na voljo. To velja tudi za napake 401 in 403;

5xx - odgovori na napako strežnika. Pajek bo trkal, dokler ne prejme odgovora, ki ni 500.

Pravila ustvarjanja

Začnimo s pozdravom. Vsaka datoteka se mora začeti s pozdravom uporabniškega agenta. Z njegovo pomočjo bodo iskalniki ugotavljali stopnjo odprtosti.

Koda	Pomen
Uporabniški agent: *	Na voljo vsem
Uporabniški agent: Yandex	Na voljo robotu Yandex
Uporabniški agent: Googlebot	Na voljo Googlebotu
Uporabniški agent: Mail.ru	Na voljo robotu Mail.ru

Dodamo ločene direktive za robote. Po potrebi dodajte navodila za specializirane iskalne robote Yandex.

Vendar v tem primeru direktivi * in Yandex ne bosta upoštevani.

Google ima svoje robote:

Najprej prepovemo, potem dovolimo. Delujte z dvema direktivama: Dovoli - dovolim, Prepoved - prepovedujem. Prepričajte se, da ste določili direktivo disallow, tudi če je dostop dovoljen do celotnega mesta. Ta direktiva je obvezna. Če manjka, pajek morda ne bo pravilno prebral preostalih informacij. Če na spletnem mestu ni nobene omejene vsebine, pustite direktivo prazno.

Delajte z različnimi nivoji. V datoteki lahko nastavite nastavitve na štirih ravneh: mesto, stran, mapa in vrsta vsebine. Recimo, da želite blokirati indeksiranje slik. To je mogoče storiti na ravni:

mape - onemogoči: /slike/
vrsta vsebine - onemogoči: /*.jpg

Združite direktive v bloke in jih ločite s prazno vrstico. Ne pišite vseh pravil v eno vrstico. Za vsako stran, pajek, mapo itd. uporabite ločeno pravilo. Prav tako ne zamenjujte navodil: zapišite bot v uporabniškem agentu in ne v direktivi dovoljenje/prepoved.

št	ja
Prepoved: Yandex	Uporabniški agent: Yandex Disallow: /
Onemogoči: /css/ /slike/	Onemogoči: /css/ Disallow: /slike/

Prosimo, pišite z upoštevanjem velikih in malih črk. Vnesite ime datoteke z malimi črkami. Yandex v svoji obrazložitveni dokumentaciji navaja, da velike in male črke za njegove bote niso pomembne, Google pa zahteva, da se upoštevajo velike in male črke. Napaka je lahko tudi v imenih datotek in map, ki razlikujejo med velikimi in malimi črkami.

Določite preusmeritev 301 na glavno ogledalo spletnega mesta. Prej je bila za to uporabljena direktiva Host, ki pa od marca 2018 ni več potrebna. Če je že registriran v datoteki robots.txt, ga izbrišite ali pustite po lastni presoji; roboti ignorirajo to direktivo.

Če želite označiti glavno ogledalo, postavite preusmeritev 301 na vsako stran spletnega mesta. Če preusmeritev ni, bo iskalnik samostojno določil, katero ogledalo velja za glavno. Če želite popraviti zrcalno spletno mesto, preprosto določite preusmeritev stran za stranjo 301 in počakajte nekaj dni.

Napišite direktivo za zemljevid spletnega mesta. Datoteki sitemap.xml in robots.txt se dopolnjujeta. Preverite, da:

datoteke si niso nasprotovale;
strani so bile izključene iz obeh datotek;
strani je bilo razrešenih v obeh datotekah.

Pri analizi vsebine robots.txt bodite pozorni, ali je zemljevid spletnega mesta vključen v istoimensko direktivo. Napisano je takole: Zemljevid spletnega mesta: www.yoursite.ru/sitemap.xml

Komentarje navedite s simbolom #. Vse, kar je napisano po njem, pajek prezre.

Preverjanje datoteke

Analizirajte robots.txt z orodji za razvijalce: prek Yandex.Webmaster in Google Robots Testing Tool. Upoštevajte, da Yandex in Google preverjata samo, ali datoteka izpolnjuje njune zahteve. Če je datoteka pravilna za Yandex, to ne pomeni, da bo pravilna za Googlove robote, zato preverite v obeh sistemih.

Če najdete napake in popravite robots.txt, pajki sprememb ne upoštevajo takoj. Običajno se strani preiščejo enkrat na dan, vendar pogosto traja veliko dlje. Po enem tednu preverite datoteko in se prepričajte, da iskalniki uporabljajo novo različico.

Preverjanje v Yandex.Webmaster

Najprej potrdite svoje pravice do spletnega mesta. Po tem se bo prikazal na plošči za spletne skrbnike. V polje vnesite ime spletnega mesta in kliknite Preveri. Rezultat preverjanja bo na voljo spodaj.

Poleg tega preverite posamezne strani. Če želite to narediti, vnesite naslove strani in kliknite »Preveri«.

Testiranje v orodju za testiranje Google Robots

Omogoča preverjanje in urejanje datoteke v upravni plošči. Prikaže sporočilo o logičnih in sintaksičnih napakah. Uredite besedilo datoteke neposredno v Google Editorju. Vendar upoštevajte, da se spremembe ne shranijo samodejno. Ko popravite robots.txt, kopirajte kodo iz spletnega urejevalnika in ustvarite novo datoteko z Beležnico ali drugim urejevalnikom besedil. Nato ga naložite na strežnik v korenski imenik.

Ne pozabite

Datoteka robots.txt pomaga iskalnim robotom indeksirati spletno mesto. Zaprite spletno stran med razvojem; preostali čas naj bo odprta celotna stran ali njen del. Pravilno delujoča datoteka mora vrniti odgovor 200.

Datoteka je ustvarjena v običajnem urejevalniku besedil. Mnogi CMS-ji omogočajo ustvarjanje datotek na upravni plošči. Prepričajte se, da velikost ne presega 32 KB. Postavite ga v korenski imenik spletnega mesta.

Izpolnite datoteko v skladu s pravili. Začnite s kodo »Uporabniški agent:«. Pravila zapišite v bloke in jih ločite s prazno vrstico. Sledite sprejeti sintaksi.

Dovoli ali zavrni indeksiranje vsem pajkom ali izbranim. Če želite to narediti, navedite ime iskalnega robota ali postavite simbol *, kar pomeni "za vsakogar".

Delajte z različnimi nivoji dostopa: mesto, stran, mapa ali vrsta datoteke.

V datoteko vključite navedbo glavnega ogledala s preusmeritvijo stran za stranjo 301 in zemljevid spletnega mesta z uporabo direktive zemljevida spletnega mesta.

Za analizo robots.txt uporabite orodja za razvijalce. To sta orodja za testiranje Yandex.Webmaster in Google Robots. Najprej potrdite pravice do mesta, nato opravite preverjanje. V Googlu takoj uredite datoteko v spletnem urejevalniku in odstranite napake. Urejene datoteke se ne shranijo samodejno. Naložite jih na strežnik namesto izvirne datoteke robots.txt. Po enem tednu preverite, ali iskalniki uporabljajo novo različico.

Gradivo je pripravila Svetlana Sirvida-Llorente.

robots.txt je običajna besedilna datoteka, ki se nahaja na spletnem mestu in je namenjena robotom iskalnikov. V tej datoteki lahko določite parametre indeksiranja za vaše spletno mesto za vse robote iskalnikov hkrati ali za vsak iskalnik posebej.

Vsi iskalni roboti ob vstopu na spletno stran najprej poiščejo datoteko robots.txt.

Kako ustvariti?

Izdelava datoteke robots.txt je zelo preprosta - ustvarite navaden besedilni dokument, poimenujte ga roboti, ne naredite napake pri črkah ali v samih črkah, ime mora biti točno tako. Če ne nameravate prepovedati indeksiranja strani spletnega mesta, lahko ustvarjeno datoteko pustite prazno. Če nameravate, preprosto izpolnite dokument v skladu s splošnimi standardi, sprejetimi leta 1994. Po tem morate datoteko naložiti v korenski imenik vašega spletnega mesta, da jo lahko odprete prek povezave http://www.site.ru/robots.txt. Vse.

Kaj skriti pred indeksiranjem?

Pravila za izpolnjevanje datoteke robots.txt

Torej mora biti v datoteki robots.txt vsak ukaz ali navodilo zapisano v ločeni vrstici. Število ekip ni omejeno.

direktiva uporabniški agent
Prva stvar, s katero morate začeti izpolnjevati datoteko, je, da označite, za katerega robota bodo ukazi, za to zapišemo v prvo vrstico:
če so vaša navodila namenjena robotom Yandex:
Uporabniški agent: yandex
za Googlebote:
Uporabniški agent: googlebot
za vse robote brez izjeme:
Direktivi Disallow in Allow
Ekipa Disallow robotu prepoveduje indeksiranje določene datoteke ali mape.

npr.
prepoveduje indeksiranje datotek v tej mapi:
Prepoved: /cgi-bin/
prepoveduje indeksiranje te datoteke:
Prepovedano: /company.html
prepoved indeksiranja celotne strani:
Preverite svoje spletno mesto – to je eden od pogostih razlogov, zakaj spletno mesto ni indeksirano.
Pomembno! Nepravilno je določiti več direktiv v eni vrstici:
Prepoved: /cgi-bin/ /cell/ /bot/

Direktiva Dovoli nasprotno, odpravlja prepoved indeksiranja nekaterih datotek. Primer njegove uporabe:

Uporabniški agent: Yandex
Dovoli: /cgi-binDisallow: /

Ta vnos v datoteki preprečuje, da bi robot Yandex prenesel vse razen strani, ki se začnejo z »/cgi-bin«.

Pomembno!Če je v datoteki navedena direktiva, vendar parametri zanjo niso določeni, bodo vrednosti naslednje:
Ni prepovedi indeksiranja spletnega mesta:
celotno spletno mesto je prepovedano indeksirati:
Direktiva o zemljevidu spletnega mesta
Če imate zemljevid spletnega mesta v formatu sitemaps.xml, navedite pot do njega v posebni direktivi Zemljevid spletnega mesta(če je datotek več, navedite vse):

Zemljevid spletnega mesta: http://site.ru/sitemaps1.xml
Zemljevid spletnega mesta: http://site.ru/sitemaps2.xml
Direktiva gostitelja
Ta vnos uporabljajo roboti Yandex. Definirajte in določite glavno ogledalo vašega spletnega mesta v direktivi Host:

Gostitelj: www.site.ru

Spletni skrbniki začetniki pogosto pozabijo, da sta spletna mesta z in brez www (www.site.ru in site.ru) zrcala drug drugega. Zato ne pozabite navesti, kateri naslov ima prednost, z ali brez www.

Direktiva Gostitelj ne zagotavlja izbire navedenega glavnega ogledala, vendar ga Yandex upošteva z visoko prioriteto.

Primer izpolnjevanja robots.txt

Uporabniški agent: *
Disallow: /administrator/
Disallow: /predpomnilnik/
Disallow: /jezik/
Disallow: /moduli/
Disallow: /plugins/
Disallow: /templates/
Prepoved: /tmp/
Gostitelj: sait.ru
Zemljevid spletnega mesta: http://site.ru/sitemaps.xml

Preverjanje datoteke robots.txt

Če želite preveriti nastalo datoteko, lahko uporabite Yandex.Webmaster. Ali pa pri nas naročite popolno SEO revizijo in preverili bomo ne samo to datoteko, ampak tudi druge pomembne parametre.

mapa robots.txt je navadna datoteka s pripono .txt, ki jo lahko ustvarite z navadno beležnico Windows. Ta datoteka vsebuje navodila za indeksiranje za iskalne robote. Postavite to datoteko korenskega imenika na gostovanje.

Ob vstopu na spletno mesto se iskalni robot najprej obrne na datoteko robots.txt, da prejme navodila za nadaljnje ukrepanje in ugotovi, katere datoteke in imenike je prepovedano indeksirati. mapa robots.txt je svetovalne narave za iskalnike. Ni mogoče z absolutno gotovostjo trditi, da vse datoteke, ki so prepovedane za indeksiranje, na koncu ne bodo indeksirane.

Oglejmo si preprost primer datoteke robots.txt. Ta datoteka vsebuje naslednje vrstice:

Uporabniški agent: * Disallow: /wp-admin/ Disallow: /images/

Prva vrstica označuje, za katere iskalne robote veljajo ta navodila. V tem primeru je označena zvezdica - to pomeni, da navodila veljajo za vse iskalne robote. Če morate zagotoviti navodila za določenega iskalnega robota, morate vnesti njegovo ime. Druga in tretja vrstica prepovedujeta indeksiranje imenikov »wp-admin« in »images«.

Za iskalnega robota Yandex je pomembno tudi, da registrirate imenik Host, da navedete glavno ogledalo spletnega mesta:

Uporabniški agent: Yandex Disallow: /wp-admin/ Disallow: /images/ Host: yoursite.ru

Primeri pisanja datoteke robots.txt za določena opravila

1. Ne prepovedujte robotom katerega koli iskalnika indeksiranja spletnega mesta:

Uporabniški agent: googlebot Disallow: /

4. Ne prepovedujte indeksiranja samo enemu robotu (na primer googlebot) in prepovejte indeksiranje vsem drugim iskalnim robotom:

Uporabniški agent: googlebot Disallow:

Uporabniški agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/

Uporabniški agent: * Disallow: /News/webnews.html Disallow: /content/page.php

Uporabniški agent: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html

Osnovna pravila za pisanje robots.txt

Pri pisanju datoteke robots.txt pogosto prihaja do napak. Da bi se jim izognili, si oglejmo osnovna pravila:

1. Vsebina datoteke mora biti zapisana samo z velikimi tiskanimi črkami.
2. Izjava Disallow mora podati samo en imenik ali eno datoteko.
3. Vrstica “User-agent” ne sme biti prazna. Če navodila veljajo za vse iskalne robote, morate označiti zvezdico, če veljajo za določenega iskalnega robota, pa označite njegovo ime.
4. Navodil Disallow in User-agent ni mogoče zamenjati.
5. V direktivi Host, ki se uporablja za Yandex, mora biti naslov našega mesta naveden brez protokola HTTP in brez končne poševnice.
6. Pri prepovedi indeksiranja imenikov je treba vključiti poševnice.
7. Preverite datoteko robots.txt, preden jo naložite na strežnik. S tem se boste izognili morebitnim težavam z indeksiranjem strani v prihodnosti.

Datoteka sitemap.xml in pravi robots.txt za spletno mesto sta dva obvezna dokumenta, ki prispevata k hitremu in popolnemu indeksiranju vseh potrebnih strani spletnega vira s strani iskalnih robotov. Pravilno indeksiranje spletnega mesta v Yandexu in Googlu je ključ do uspešne promocije spletnega dnevnika v iskalnikih.

Napisal sem že, kako narediti zemljevid spletnega mesta v formatu XML in zakaj je to potrebno. Zdaj pa se pogovorimo o tem, kako ustvariti pravilen robots.txt za spletno mesto WordPress in zakaj je na splošno potreben. Podrobne informacije o tej datoteki lahko dobite pri Yandexu oziroma Googlu. Prišel bom do bistva in se dotaknil osnovnih nastavitev datoteke robots.txt za WordPress, pri čemer bom uporabil svojo datoteko kot primer.

Zakaj potrebujete datoteko robots.txt za spletno stran?

Standard robots.txt se je pojavil januarja 1994. Pri skeniranju spletnega vira iskalni roboti najprej poiščejo besedilno datoteko robots.txt, ki se nahaja v korenski mapi spletnega mesta ali bloga. Z njegovo pomočjo lahko robotom različnih iskalnikov določimo določena pravila, po katerih bodo indeksirali stran.

Pravilna nastavitev robots.txt vam bo omogočila:

izključite dvojnike in različne neželene strani iz indeksa;
prepovemo indeksiranje strani, datotek in map, ki jih želimo skriti;
na splošno zavrnejo indeksiranje nekaterim iskalnim robotom (na primer Yahoo, da bi skrili informacije o dohodnih povezavah pred konkurenti);
navedite glavno ogledalo spletnega mesta (z www ali brez www);
določite pot do zemljevida spletnega mesta sitemap.xml.

Kako ustvariti pravilno robots.txt za spletno mesto

Za ta namen obstajajo posebni generatorji in vtičniki, vendar je bolje, da to storite ročno.

Ustvariti morate navadno besedilno datoteko, imenovano robots.txt, z uporabo katerega koli urejevalnika besedil (na primer Notepad ali Notepad++) in jo naložiti na svoje gostovanje v korensko mapo vašega spletnega dnevnika. V tej datoteki morajo biti zapisane nekatere direktive, tj. pravila indeksiranja za robote Yandex, Google itd.

Če ste preleni, da bi se ukvarjali s tem, bom spodaj podal primer, z mojega vidika, pravilnega robots.txt za WordPress iz mojega bloga. Uporabite ga lahko tako, da ime domene zamenjate na treh mestih.

Pravila in navodila za ustvarjanje datoteke Robots.txt

Za uspešno optimizacijo bloga za iskalnike morate poznati nekaj pravil za ustvarjanje robots.txt:

Odsotnost ali prazna datoteka robots.txt pomeni, da lahko iskalniki indeksirajo vso vsebino spletnega vira.
Datoteka robots.txt bi se morala odpreti na vašem site.ru/robots.txt, robotu dati odgovorno kodo 200 OK in biti velika največ 32 KB. Datoteka, ki se ne odpre (na primer zaradi napake 404) ali je večja, bo obravnavana kot ok.
Število direktiv v datoteki ne sme presegati 1024. Dolžina ene vrstice ne sme presegati 1024 znakov.
Veljavna datoteka robots.txt ima lahko več stavkov, od katerih se mora vsak začeti z direktivo User-agent in mora vsebovati vsaj eno Direktivo Disallow. Običajno pišejo navodila v robots.txt za Google in vse druge robote ter ločeno za Yandex.

Osnovne direktive robots.txt:

Uporabniški agent – označuje, kateremu iskalnemu robotu je navodilo naslovljeno.

Simbol "*" pomeni, da to velja za vse robote, na primer:

Uporabniški agent: *

Če moramo ustvariti pravilo v robots.txt za Yandex, potem napišemo:

Uporabniški agent: Yandex

Če je direktiva podana za določenega robota, direktiva User-agent: * ta ne upošteva.

Disallow in Allow – prepove in dovoli robotom indeksiranje določenih strani. Vsi naslovi morajo biti podani od korena mesta, tj. začenši s tretjo poševnico. Na primer:

Prepoved vsem robotom indeksiranja celotnega mesta:
Uporabniški agent: *
Disallow: /
Yandexu je prepovedano indeksirati vse strani, ki se začnejo z /wp-admin:
Uporabniški agent: Yandex
Prepoved: /wp-admin
Prazna direktiva Disallow omogoča indeksiranje vsega in je podobna Direktivi Allow. Na primer, Yandexu dovolim, da indeksira celotno spletno mesto:
Uporabniški agent: Yandex
Disallow:
In obratno, vsem iskalnim robotom prepovedujem indeksiranje vseh strani:
Uporabniški agent: *
Dovoli:
Direktivi Allow in Disallow iz istega bloka User-agent sta razvrščeni po dolžini predpone URL in se izvajata zaporedno. Če je za eno stran spletnega mesta primernih več direktiv, se izvede zadnja na seznamu. Zdaj vrstni red, v katerem so napisani, ni pomemben, ko robot uporablja direktive. Če imajo direktive predpone enake dolžine, se najprej izvede Allow. Takšna pravila so začela veljati 8. marca 2012. Na primer, dovoljuje indeksiranje samo strani, ki se začnejo z /wp-includes:
Uporabniški agent: Yandex
Disallow: /
Dovoli: /wp-includes

Zemljevid spletnega mesta – določa naslov zemljevida spletnega mesta XML. Eno spletno mesto ima lahko več direktiv zemljevidov, ki jih je mogoče ugnezditi. Vsi naslovi datotek zemljevidov spletnih mest morajo biti navedeni v datoteki robots.txt, da se pospeši indeksiranje spletnih mest:

Zemljevid spletnega mesta: http://site/sitemap.xml.gz
Zemljevid spletnega mesta: http://site/sitemap.xml

Gostitelj – zrcalnemu robotu pove, katero ogledalo spletne strani naj šteje za glavno.

Če je spletno mesto dostopno na več naslovih (na primer z www in brez www), se s tem ustvarijo popolne podvojene strani, ki jih filter lahko ujame. Tudi v tem primeru morda ne bo indeksirana glavna stran, ampak bo glavna stran, nasprotno, izključena iz indeksa iskalnika. Če želite to preprečiti, uporabite direktivo Host, ki je v datoteki robots.txt namenjena samo Yandexu in je lahko samo ena. Napisano je za Disallow in Allow in je videti takole:

Gostitelj: spletna stran

Crawl-delay – nastavi zamik med nalaganjem strani v sekundah. Uporablja se, če je obremenitev velika in strežnik nima časa za obdelavo zahtev. Na mladih spletnih mestih je bolje, da ne uporabljate direktive Crawl-delay. Napisano je takole:

Uporabniški agent: Yandex
Zakasnitev pajkanja: 4

Clean-param – podpira samo Yandex in se uporablja za odstranjevanje podvojenih strani s spremenljivkami, ki jih združi v eno. Tako robot Yandex ne bo večkrat prenašal podobnih strani, na primer tistih, ki so povezane z referenčnimi povezavami. Te direktive še nisem uporabil, vendar v pomoči na robots.txt za Yandex sledite povezavi na začetku članka, lahko podrobno preberete to direktivo.

Posebna znaka * in $ se v robots.txt uporabljata za označevanje poti direktiv Disallow in Allow:

Posebni znak “*” pomeni poljubno zaporedje znakov. Na primer, Disallow: /*?* pomeni prepoved vseh strani, kjer se v naslovu pojavi »?«, ne glede na to, kateri znaki so pred in za tem znakom. Privzeto je na koncu vsakega pravila dodan poseben znak »*«, tudi če ni posebej določen.
Simbol “$” prekliče “*” na koncu pravila in pomeni strogo ujemanje. Direktiva Disallow: /*?$ bo na primer prepovedala indeksiranje strani, ki se končajo z znakom »?«.

Primer robots.txt za WordPress

Tukaj je primer moje datoteke robots.txt za spletni dnevnik na mehanizmu WordPress:

Uporabniški agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Da se ne boste zavajali z ustvarjanjem pravilne datoteke robots.txt za WordPress, lahko uporabite to datoteko. Z indeksiranjem ni težav. Imam skript za zaščito pred kopiranjem, zato bo bolj priročno prenesti že pripravljen robots.txt in ga naložiti na svoje gostovanje. Samo ne pozabite zamenjati imena mojega mesta s svojim v navodilih Host in Sitemap.

Uporabni dodatki za pravilno konfiguracijo datoteke robots.txt za WordPress

Če so na vaš blog WordPress nameščeni drevesni komentarji, potem ustvarijo podvojene strani v obliki ?replytocom= . V robots.txt se takšne strani zaprejo z ukazom Disallow: /*?*. Ampak to ni rešitev in bolje je odstraniti prepovedi in se proti replytocomu boriti na drug način. Kaj, .

Tako je trenutni robots.txt od julija 2014 videti takole:

Uporabniški agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Uporabniški agent: Yandex Disallow: /wp -vključuje Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ Uporabniški agent: YandexImages Allow: /wp-content/uploads/ Zemljevid spletnega mesta: http://site.ru/sitemap.xml

Dodatno določa pravila za robote za indeksiranje slik.

Uporabniški agent: Mediapartners-Google
Disallow:

Če nameravate promovirati strani s kategorijami ali oznakami, jih odprite robotom. Na primer, na spletni strani spletnega dnevnika kategorije niso zaprte pred indeksiranjem, saj objavljajo le majhne objave člankov, kar je v smislu podvajanja vsebine precej nepomembno. In če uporabite prikaz citatov v viru spletnega dnevnika, ki so napolnjeni z edinstvenimi objavami, potem podvajanja sploh ne bo.

Če ne uporabljate zgornjega vtičnika, lahko v datoteki robots.txt določite prepoved indeksiranja oznak, kategorij in arhivov. Na primer, dodajanje naslednjih vrstic:

Disallow: /avtor/
Onemogoči: /tag
Prepoved: /kategorija/*/*
Prepoved: /20*

Ne pozabite preveriti datoteke robots.txt na plošči Yandex.Webmaster in jo nato znova naložite na svoje gostovanje.

Če imate kakršne koli dodatke za konfiguracijo robots.txt, pišite o tem v komentarjih. Zdaj pa si oglejte video o tem, kaj je to in kako ustvariti pravilno datoteko robots.txt za spletno mesto, kako prepovedati indeksiranje v datoteki robots.txt in popraviti napake.

Za večino spletnih mest je potrebna datoteka robot.txt.

Vsak SEO optimizer mora razumeti pomen te datoteke in znati napisati najbolj priljubljene direktive.

Pravilno sestavljeni roboti izboljšujejo pozicijo spletne strani v rezultatih iskanja in so poleg drugih načinov promocije učinkovito orodje za SEO.

Da bi razumeli, kaj je robot.txt in kako deluje, se spomnimo, kako delujejo iskalniki.

Če ga želite preveriti, v naslovno vrstico vnesite svojo korensko domeno in dodajte /robots.txt na konec URL-ja.

Datoteka Moz robot se na primer nahaja na: moz.com/robots.txt. Vstopimo in dobimo stran:

Navodila za "robota"

Kako ustvariti datoteko robots.txt?

3 vrste navodil za robots.txt.

Če ugotovite, da datoteka robots.txt manjka, jo preprosto ustvarite.

Kot je bilo že omenjeno na začetku članka, je to običajna besedilna datoteka v korenskem imeniku spletnega mesta.

To je mogoče storiti prek skrbniške plošče ali upravitelja datotek, s katerim programer dela z datotekami na spletnem mestu.

Ugotovili bomo, kako in kaj tam napisati, ko bo članek napredoval.

Iskalniki iz te datoteke prejmejo tri vrste navodil:

skenirajte vse, to je popoln dostop (Dovoli);
ničesar ne morete skenirati - popolna prepoved (Disallow);
Ne morete skenirati posameznih elementov (kateri so označeni) - delni dostop.

V praksi izgleda takole:

Upoštevajte, da se stran morda še vedno pojavlja v rezultatih iskanja, če je povezana na tem mestu ali zunaj njega.

Da bi to bolje razumeli, preučimo sintakso te datoteke.

Syntax Robots.Txt

Robots.txt: kako izgleda?

Pomembne točke: kaj si morate vedno zapomniti o robotih.

Sedem pogostih izrazov, ki jih pogosto najdemo na spletnih mestih.

V najpreprostejši obliki je robot videti takole:

Uporabniški agent: [ime sistema, za katerega pišemo direktive] Disallow: Zemljevid spletnega mesta: [navedite, kje imamo zemljevid spletnega mesta] # Pravilo 1 Uporabniški agent: Googlebot Disallow: /prim1/ Zemljevid spletnega mesta: http://www.nashsite. com /sitemap.xml

Te tri vrstice skupaj veljajo za najpreprostejši robots.txt.

Tukaj smo botu preprečili indeksiranje URL-ja: http://www.nashsite.com/prim1/ in navedli, kje se nahaja zemljevid spletnega mesta.

Upoštevajte, da je v datoteki robots niz direktiv za enega uporabniškega agenta (iskalnik) ločen od niza direktiv za drugega s prelomom vrstice.

V datoteki z več direktivami iskalnika se vsaka prepoved ali dovoljenje nanaša samo na iskalnik, naveden v tem specifičnem nizu vrstic.

To je pomembna točka in je ne smemo pozabiti.

Če datoteka vsebuje pravila, ki veljajo za več uporabniških agentov, bo sistem dal prednost direktivam, ki so specifične za navedeni iskalnik.

Tukaj je primer:

Na zgornji sliki imajo MSNbot, discobot in Slurp posamezna pravila, ki bodo delovala samo za te iskalnike.

Vsi drugi uporabniški agenti sledijo splošnim navodilom v skupini uporabniških agentov: *.

Sintaksa datoteke robots.txt sploh ni zapletena.

Obstaja sedem pogostih izrazov, ki jih pogosto najdemo na spletnih mestih.

Uporabniški agent: določen spletni iskalnik (bot iskalnika), ki mu daste navodila za pajkanje. Seznam večine uporabniških agentov najdete tukaj. Skupno ima 302 sistema, od katerih sta dva najpomembnejša Google in Yandex.
Disallow: ukaz za onemogočanje, ki pove agentu, naj ne obišče URL-ja. Na URL je dovoljena samo ena vrstica »disallow«.
Dovoli (velja samo za Googlebot): Ukaz sporoči botu, da lahko dostopa do strani ali podmape, tudi če je njena nadrejena stran ali podmapa zaprta.
Crawl-delay: koliko milisekund naj iskalnik počaka, preden naloži in preišče vsebino strani.

Prosimo, upoštevajte – Googlebot ne podpira tega ukaza, vendar lahko hitrost pajkanja ročno nastavite v Google Search Console.

Zemljevid spletnega mesta: uporablja se za klicanje lokacije vseh zemljevidov XML, povezanih s tem URL-jem. Ta ukaz podpirajo samo Google, Ask, Bing in Yahoo.
Gostitelj: ta direktiva označuje glavno ogledalo spletnega mesta, ki ga je treba upoštevati pri indeksiranju. Registrira se lahko le enkrat.
Clean-param: Ta ukaz se uporablja za boj proti podvojeni vsebini med dinamičnim naslavljanjem.

Regularni izrazi

Regularni izrazi: kako izgledajo in kaj pomenijo.

Kako dovoliti in zavrniti pajkanje v robots.txt.

V praksi lahko datoteke robots.txt rastejo in postanejo precej zapletene in okorne.

Sistem omogoča uporabo regularnih izrazov za zagotavljanje zahtevane funkcionalnosti datoteke, to je fleksibilno delo s stranmi in podmapami.

* je nadomestni znak, pomeni, da direktiva deluje za vse iskalne robote;
$ se ujema s koncem URL-ja ali niza;
# uporablja se za komentarje razvijalcev in optimizatorjev.

Tukaj je nekaj primerov robots.txt za http://www.nashsite.com

URL datoteke robots.txt: www.nashsite.com/robots.txt

Uporabniški agent: * (to je za vse iskalnike) Disallow: / (poševnica označuje korenski imenik spletnega mesta)

Vsem iskalnikom smo pravkar preprečili, da bi preiskovali in indeksirali celotno spletno mesto.

Kako pogosto je potrebno to dejanje?

Redko, vendar obstajajo primeri, ko je potrebno, da vir ne sodeluje v rezultatih iskanja in obiski potekajo prek posebnih povezav ali prek avtorizacije podjetja.

Tako delujejo interne spletne strani nekaterih podjetij.

Poleg tega je taka direktiva predpisana, če je stran v fazi razvoja ali posodobitve.

Če morate dovoliti iskalniku, da preišče vse, kar je na spletnem mestu, morate v robots.txt napisati naslednje ukaze:

Uporabniški agent: * Disallow:

V prepovedi (disallow) ni ničesar, kar pomeni, da je vse mogoče.

Uporaba te sintakse v datoteki robots.txt omogoča pajkom, da preiščejo vse strani na http://www.nashsite.com, vključno z domačo stranjo, skrbniško stranjo in stranjo s kontakti.

Blokiranje določenih iskalnih botov in določenih map

Sintaksa za iskalnik Google (Googlebot).

Sintaksa za druge iskalne posrednike.

Uporabniški agent: Googlebot Disallow: /example-subfolder/

Ta sintaksa samo sporoči Googlovemu iskalniku (Googlebot), naj ne pajka po naslovu: www.nashsite.com/example-subfolder/.

Blokiranje posameznih strani za določene bote:

Uporabniški agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Ta sintaksa sporoča Bingbotu (ime iskalnega agenta Bing), da ne obišče strani na: www.nashsite.com/example-subfolder/blocked-page.

To je v bistvu to.

Če obvladate teh sedem ukazov in tri simbole ter razumete logiko aplikacije, boste lahko napisali pravilen robots.txt.

Zakaj ne deluje in kaj storiti

Glavni akcijski algoritem.

Druge metode.

Nepravilna datoteka robots.txt je težava.

Navsezadnje bo prepoznavanje napake in njeno razumevanje trajalo nekaj časa.

Ponovno preberite datoteko in se prepričajte, da niste blokirali ničesar nepotrebnega.

Če se čez nekaj časa izkaže, da stran še vedno visi v rezultatih iskanja, poglejte v Google Webmaster, ali je iskalnik ponovno indeksiral stran, in preverite, ali obstajajo zunanje povezave do zaprte strani.

Ker če obstajajo, jih bo težje skriti pred rezultati iskanja;

No, pred uporabo preverite to datoteko z brezplačnim Googlovim testerjem.

Pravočasna analiza pomaga preprečiti težave in prihrani čas.