Robots.txt - ide o špeciálny súbor, ktorý je zaradený do koreňového adresára stránky. Iným spôsobom vám webmaster povie, ako budú strany a údaje uzavreté v indexácii v systémoch vyhľadávačov. Súbor obsahuje smernice, ktoré popisujú prístup k distribúcii stránky (tzv. štandard pre roboty). Pomocou tejto pomoci môžete napríklad nastaviť rôzne nastavenia prístupu pre push roboty, aplikácie pre mobilné zariadenia a výkonné počítače. Je tiež dôležité správne nalashtuvati jogu.

Potrebujete robots.txt?

Ak potrebujete pomoc so súborom robots.txt, môžete:

  • indexovať podobné a nerelevantné strany, aby sa neprekročil limit indexového prehľadávania (počet adries URL, aby ste mohli obísť vyhľadávacieho robota pri jednom prehľadávaní). Takže robot môže indexovať dôležitejšie strany.
  • Uchopte obrázok z výsledkov vyhľadávania.
  • zatvorte nedôležité skripty, súbory štýlov a iné nekritické vedľajšie zdroje pre indexovanie.

Ako prinútiť skener Google alebo Yandex analyzovať stranu, takže neblokujte súbory.

Kde je súbor Robots.txt?

Ak chcete len vidieť, čo je v súbore robots.txt, jednoducho zadajte do panela s adresou prehliadača: site.ru/robots.txt.

Fyzicky sa súbor robots.txt nachádza v koreňovom priečinku hostiteľskej lokality. Mám hosting beget.ru, takže vám ukážem podrobnosti o súbore robots.txt na tomto hostingu.


Ako vytvoriť správny súbor robots.txt

Súbor robots.txt pozostáva z jedného alebo viacerých pravidiel. Pravidlo vzhľadu blokuje alebo umožňuje indexovanie trasy na lokalite.

  1. V textovom editore vytvorte súbor s názvom robots.txt a pred odoslaním ho správne načítajte podľa nižšie uvedených pravidiel.
  2. Súbor robots.txt je textový súbor zakódovaný v ASCII alebo UTF-8. Znaky v inom kódovaní nie sú povolené.
  3. Na stránke je chybný iba jeden takýto súbor.
  4. Je potrebné umiestniť súbor robots.txt koreňová katalóza stránky. Ak chcete napríklad kontrolovať indexovanie všetkých strán lokality http://www.example.com/, súbor robots.txt by mal byť umiestnený vedľa adresy http://www.example.com/robots.txt. Vіn nie je vinný z toho, že je v pidkatalóze(Napríklad pre adresu http://example.com/pages/robots.txt). Aký je problém s prístupom do koreňového adresára, aby ste sa dostali k poskytovateľovi hostingu. Ak sa nemôžete dostať do koreňového adresára lokality, použite alternatívnu metódu blokovania, ako sú metaznačky.
  5. Súbor robots.txt možno pridať pre adresy z subdomény(Napríklad http:// webovej stránky.example.com / robots.txt) alebo neštandardné porty (napríklad http://example.com: 8181 /robots.txt).
  6. Preveďte súbor v službách Yandex.Webmaster a Google Search Console.
  7. Nahrajte súbor do koreňového adresára vašej lokality.

Os je pripojená k súboru robots.txt s dvoma pravidlami. Nižšie je uvedené vysvetlenie.

User-agent: Googlebot Disallow: /nogooglebot / User-agent: * Povoliť: /Sitemap: http://www.example.com/sitemap.xml

vysvetlenie

  1. Zástupca pre pomenovanie Googlebot nie je vinný z indexovania adresára http://example.com/nogooglebot/ a ďalších podadresárov.
  2. Všetci ostatní agenti korešpondenta majú prístup k celej stránke (môžete ho vynechať, výsledok bude rovnaký, pretože potrebujete viac prístupu pre zámok).
  3. Súbor Sitemap pre túto stránku sa nachádza na adrese http://www.example.com/sitemap.xml.

Smernice nepovoľujú a povoľujú

Ak chcete zabrániť indexovaniu a prístupu robota na stránku alebo distribúcii deyakim yogo, použite direktívu Disallow.

User-agent: Yandex Disallow: / # blokovanie prístupu k celej stránke User-agent: Yandex Disallow: / cgi-bin # blokovanie prístupu do strán, # čo je spôsobené "/cgi-bin"

Odporúča sa vložiť prázdny nový riadok pred direktívu vzhľadu User-agent.

Symbol # priradenia pre popis komentárov. Nie je poistené všetko, čo je známe po prvom symbole i do prvého posunu riadku.

Ak chcete povoliť robotovi prístup na stránku alebo distribuované deyakim yogo, použite direktívu Allow

User-agent: Yandex Povoliť: / cgi-bin Disallow: / # zaboronyaє zavantazhuvat all, krіm storіnok # scho začať od "/cgi-bin"

Je neprijateľné, aby medzi príkazmi User-agent, Disallow a Allow boli prázdne zalomenia riadkov.

Direktívy Allow a Disallow z konkrétneho bloku User-agent sú zoradené podľa predchádzajúcej predpony URL (od najmenšej po najväčšiu) a sú zoradené postupne. Ak pre túto stranu stránka potrebuje niekoľko príkazov, potom robot vyberie najvyššie sériové číslo, ktoré sa objaví v zoradenom zozname. Týmto spôsobom sa poradie, v ktorom sa odovzdávajú pokyny v súbore robots.txt, nezhoduje s poradím v súbore robots.txt. použiť:

# Output robots.txt: User-agent: Yandex Allow: / Catalog Disallow: / # Triedenie robots.txt: User-agent: Yandex Disallow: / Allow: / Catalog # output robots.txt: User-agent: Yandex Allow: / Povoliť: / katalóg / auto Zakázať: / katalóg # Triedenie robots.txt: User-agent: Yandex Povoliť: / Zakázať: / katalóg Povoliť: / katalóg / auto # plot povoliť sťahovanie strán, ktoré pochádzajú z "/catalog", # tiež povoliť sťahovanie stránok, ktoré pochádzajú z "/catalog/auto".

V prípade konfliktu medzi dvoma smernicami s rovnakými predponami má prednosť smernica Allow.

Variant špeciálnych znakov * a $

Pri zadávaní riadkov príkazov Allow a Disallow môžete vybrať špeciálne znaky * a $, čím sa v tomto poradí nastavia skladby bežných virazi.

Špeciálny znak * znamená, či (vrátane prázdnych) ide o sekvenciu znakov alebo nie.

Špeciálny znak $ znamená koniec riadku, znak pred ním je zvyšok.

User-agent: Yandex Disallow: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" # a "/cgi-bin/private/test.aspx" Disallow: / * private # nielen "/ private", #a a "/cgi-bin/private"

Smernica o mapách stránok

Ak chcete za súborom Sitemap popis štruktúry webu, zadajte cestu k súboru v kapacite parametra direktívy sitemap (ako súbor dekilka zadajte všetko). zadok:

User-agent: Yandex Povoliť: /sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Smernica є medzi sekciami, ktoré bude vikoristovuvatisya robot nezávisle v priestore v súbore robots.txt, nie je zobrazená.

Robot si zapamätá cestu k súboru, spracuje údaje a vyhrá výsledky, keď je relácia vzdialená.

Smernica o oneskorenom prehľadávaní

Ak je server veľmi vystresovaný a nedokáže spustiť robota, zrýchlite ho pomocou smernice Crawl-delay. Umožňuje vám nastaviť minimálnu dobu jednej hodiny (v sekundách) pre pátracieho robota medzi dokončením jednej strany útoku a začiatkom ofenzívy.

Predtým, ako zmeniť rýchlosť obchádzania stránky, vysvetlite niektorým stranám robot pracuje častejšie.

  • Analyzujte protokoly servera. Vráťte sa na spivrobіtnik, vіdpovіdalny pre stránku alebo na poskytovateľa hostingu.
  • Pozrite si zoznam adries URL na stránke indexovania → Štatistiky indexového prehľadávania v Yandex.Webmaster (vyberte Použiť stránky).

Ak vidíte, že robot prechádza na stránky služieb, indexujte ho v súbore robots.txt, kde vám pomôže direktíva Disallow. Tse dopomozhe znížiť počet zayvih zvierat robota.

Smernica o čistých parametroch

Smernica funguje iba s robotom Yandex.

Ak majú byť adresy strán stránky naplnené dynamickými parametrami, ak v nich nie sú zahrnuté (identifikátory relácií, corylisty, referrery a pod.), môžete ich popísať pomocou direktívy Clean-param.

Yandex robot, vikoristovuyuchi tsyu smernice, scho nebude bagatorazhuvaty duplikovanie informácií. Týmto spôsobom sa zvýši efektivita obchádzania vašich stránok, zníži sa námaha na serveri.

Napríklad na stránke sú storinki:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Parameter ref sa volí len preto, aby sa pre daný zdroj skontroloval, či je počet prípon vyplnený a nemení sa, pre všetky tri adresy sa zobrazí jedna a tá istá stránka s knihou book_id = 123.

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

robot Yandex získa všetky adresy až po jednu:

www.example.com/some_dir/get_book.pl?book_id=123

Ak je takáto strana na stránke k dispozícii, bude sa sama podieľať na výsledkoch vtipu.

syntax direktívy

Clean-param: p0 [&p1&p2&..&pn]

V prvom poli sa parametre menia pomocou symbolu &, pretože robot nemusí byť v bezpečí. V ďalšom poli je uvedená predpona dráhy strán, pre ktorú je potrebné nastaviť pravidlo.

Poznámka. Direktíva Clean-Param je medzi sekciami, takže ju možno zadať na ľubovoľnom mieste v súbore robots.txt. Občas, aj keď majú smernice pridelené kilka, všetkých smradov poistí robot.

Predpona môže nahradiť bežný vírus vo formáte podobnom súboru robots.txt, ale s niektorými doplnkami: hláskovať môžete iba znaky A-Za-z0-9 .- / * _. V tomto prípade je znak * interpretovaný rovnakým spôsobom ako v súbore robots.txt: na konci predpony je implicitne pripojený znak *. napríklad:

Clean-param: s /forum/showthread.php

Register je poistený. Dіє obmezhennya na pravidlách dovzhina - 500 znakov. napríklad:

Clean-param: abc /forum/showthread.php Clean-param: sid & sort /forum/*.php Clean-param: someTrash & otherTrash

Smernica HOST

V súčasnosti Yandex pripojil túto smernicu.

Správne nastavenie súboru robots.txt

V súbore robots.txt to závisí od typu stránky (internetový obchod, blog), CMS twistu, štruktúrnych prvkov a množstva ďalších úradníkov. Práca na vytvorení tohto súboru pre komerčnú stránku, najmä ak ide o skladací projekt, je vďaka SEO-fahivetom s dostatočnými pracovnými povoleniami.

Osoba bez špeciálneho školenia, ktorá je lepšia na všetko, nemôže urobiť správne rozhodnutie, aj keď je lepšie ho čo najskôr uzavrieť v indexácii a komu môže byť povolené, aby sa objavil v kategórii vyhľadávania.

Správny súbor Robots.txt pre WordPress

User-agent: * # všeobecné pravidlá pre roboty, pre Yandex a Google, # pravidlá pre nich sú nižšie Disallow: / cgi-bin # hosting folder Disallow: /? # Všetky nastavenia sa odošlú hostiteľovi Disallow: / wp- # all wp files: / wp-json /, / wp-includes, / wp-content / plugins Disallow: / wp / # Aj adresár / wp /, de install CMS (čo nie je možné, # pravidlo je vidieť) Disallow: *? s = # Zakázať vyhľadávanie: * & s = # Zakázať vyhľadávanie: / hľadať / # Zakázať vyhľadávanie: / autor / # archívy autorov Zakázať: / používatelia / # archívy autorov Zakázať: * / spätné odkazy # spätné odkazy, komentovanie vzhľadu podpisu # send to article Disallow: * / feed # all files Disallow: * / rss # rss files Disallow: * / embed # all files Disallow: * / wlwmanifest.xml # Windows Live Writer manifest xml súbor (viditeľný) Disallow: /xmlrpc. php # Súbor WordPress API Zakázať: * utm * = # nahrávanie značiek utm Zakázať: * openstat = # nahrávanie značiek openstat Povoliť: * / nahrávanie # nahrávanie otvoreného priečinka súboru Sitemap: http:/ /site.ru/sitemap.xml # URL súboru sitemap User-agent: GoogleBot # pravidlá pre Google (neduplikovať komentáre) Disallow: / cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/Disallow: *? S=Disallow:*&s=Disallow:/search/Disallow:/author/Disallow:/users/Disallow:*/trackback Disallow:*/feed Disallow:*/rss Disallow:*/embed Disallow:*/wlwmanifest.xml Disallow : /xmlrpc.php Zakázať: * utm * = Zakázať: * openstat = Povoliť: * / nahrávanie Povoliť: /*/*.js # vložiť skript js do stredu / wp- (/ * / - pre prioritu) Povoliť: / */*.css # zobraziť súbory css uprostred / wp- (/ * / - pre prioritu) Povoliť: /wp-*.png # obrázky v zásuvných moduloch, priečinkoch vyrovnávacej pamäte atď. Povoliť: /wp-*.jpg # obrázky v zásuvných moduloch, priečinkoch vyrovnávacej pamäte atď. Povoliť: /wp-*.jpeg # obrázky v zásuvných moduloch, priečinkoch vyrovnávacej pamäte atď. Povoliť: /wp-*.gif # obrázky v zásuvných moduloch, priečinkoch vyrovnávacej pamäte atď. Povoliť: /wp-admin/admin-ajax.php # pomocou pluginov, aby sa zabránilo blokovaniu JS a CSS User-agent: Yandex # pravidlá pre Yandex (neduplikovať komentáre) Disallow: / cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/Disallow: *? S=Disallow:*&s=Disallow:/search/Disallow:/author/Disallow:/users/Disallow:*/trackback Disallow:*/feed Disallow:*/rss Disallow:*/embed Disallow:*/wlwmanifest.xml Disallow : /xmlrpc.php Povoliť: * / nahrávanie Povoliť: /*/*.js Povoliť: /*/*.css Povoliť: /wp-*.png Povoliť: /wp-*.jpg Povoliť: /wp-*. jpeg Povoliť: /wp-*.gif Povoliť: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex odporúča neuzatvárať # indexovanie, ale zobraziť parametre značky, # Google nedodržiava pravidlá ako tento Clean-Param: openstat # podobne

Robots.txt pre Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /zahŕňa/
Disallow: /installation/
Disallow: /jazyk/
Disallow: /knižnice/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /šablóny/
Disallow: /tmp/
Disallow: /xmlrpc/

Robots.txt pre Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Zakázať: /osobné/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*? tlač =
Disallow: /*&print=
Disallow: /*register=
Disallow: /*zabudnuté_heslo=
Disallow: /* change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*? akcia =
Disallow: /* akcia = ADD_TO_COMPARE_LIST
Disallow: /* akcia = DELETE_FROM_COMPARE_LIST
Disallow: /* action=ADD2BASKET
Disallow: /* akcia = KÚPIŤ
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /* BACKURL=*
Disallow: /* back_url = *
Disallow: /*BACK_URL=*
Disallow: /* back_url_admin=*
Disallow: /* print_course = Y
Disallow: /*COURSE_ID=
Disallow: /*? COURSE_ID =
Disallow: /*? PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=

Disallow: /* PAGE_NAME=hľadať
Disallow: /*PAGE_NAME=user_post
Disallow: /* PAGE_NAME = detail_slide_show
Disallow: /* SHOWALL
Disallow: /* show_all=
Sitemap: http: // cesta k vašej mape vo formáte XML

Robots.txt pre MODx

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/exports/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manažér/
Sitemap: http://site.ru/sitemap.xml

Robots.txt pre Drupal

User-agent: *
Disallow: /databáza/
Disallow: /zahŕňa/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profily/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /komentár/odpoveď/
Disallow: /kontakt/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *registrácia*
Zakázať: *prihlásenie*
Disallow: /najlepšie hodnotené-
Disallow: /správy/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /agregátor/
Disallow: /files/pin/
Disallow: /vaše-hlasy
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0 $
Disallow: /*/edit $
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /* downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*? Strana = 0
Disallow: / * sekcia
Disallow: /* objednávka
Disallow: /*? Zoradiť *
Disallow: /*&sort*
Disallow: /* votesupdown
Disallow: /*kalendár
Disallow: /*index.php
povoliť: /*? Strana=
Disallow: /*?
Sitemap: http: // cesta k vašej mape vo formáte XML

UVAGA!

CMS sú neustále aktualizované. Možno budete musieť zatvoriť indexáciu druhej strany. Padnutá voda, plot na indexáciu je možné vziať buď, navpaki, pridať.

upraviť súbor robots.txt

Prehliadač kože má svoje vlastné spôsoby na vytvorenie súboru robots.txt.

Za účelom upraviť súbor robots.txt pre správnu syntax a štruktúru súboru môžete urýchliť jednu z online služieb. Napríklad Yandex a Google ponúkajú pre webmasterov silu analytických služieb, ktoré zahŕňajú Analýza robots.txt:

Úprava súboru robotx.txt pre vyhľadávacieho robota Yandex

Môžete to urobiť pomocou špeciálneho nástroja pre Yandex - Yandex.Webmaster, ktorý má dve možnosti.

Možnosť 1:

Vpravo v hore, čo vidíte - vyberte si analýza súboru robots.txt alebo o pomoc http://webmaster.yandex.ru/robots.xml

Nezabudnite na tie, že všetky zmeny, ktoré pridáte do súboru robots.txt, nebudú dostupné okamžite, ale až za deň.

Úprava súboru robotx.txt pre robota na indexové prehľadávanie Google

  1. V konzole Google Search Console vyberte svoj web, prejdite do nástroja na refaktorovanie a pozrite sa do súboru robots.txt. syntaktickýі logické omilostenia v novom bude vidieť, a ich počet - menovaní podľa nového úvodníku.
  2. V spodnej časti na bočnej strane rozhrania zadajte požadovanú adresu URL pre preferované okno.
  3. V rozbaľovacej ponuke vyberte možnosť pravák robota.
  4. stlač tlačidlo PRESKÚMANIE.
  5. Objaví sa stav PRÍSTUPNÝ alebo NEPRÍSTUPNÉ. V prvom môžu roboty Google sledovať zadanú adresu, ale v druhom nie.
  6. V prípade potreby vykonajte zmeny v ponuke a znova skontrolujte opätovnú kontrolu. Rešpekt! Opravy nebudú automaticky pridané do súboru robots.txt na vašej stránke.
  7. Skopírujte zmeny a pridajte ich do súboru robots.txt na vašom webovom serveri.

Crim servіsіv opätovné overenie Yandex a Google a ďalšie anonymné online validátory v súbore robots.txt.

Generátory robots.txt

  1. Služba ako SEOlib.ru. Pomocou tohto nástroja môžete rýchlo odstrániť a znova skontrolovať výmenu zo súboru Robots.txt.
  2. Generátor ako pr-cy.ru. V dôsledku generátora robots.txt odstránite text, ktorý potrebujete uložiť do súboru s názvom Robots.txt, a pridáte ho do koreňového adresára vašej lokality.

Správne a kompetentné nastavenie koreňového súboru robots.txt je jednou z najdôležitejších úloh WEB mastera. V časoch neprípustného odpustenia v zobrazení vyhľadávania sa môžu objaviť anonymné nepotrebné strany stránky. V opačnom prípade bude zatvorený pre indexovanie dôležitých dokumentov vašej stránky, v najhoršom prípade môžete pre vyhľadávacích robotov zavrieť celý koreňový adresár domény.

Správne nastavenie súboru robots.txt vlastnými rukami v skutočnosti nie je úloha príliš komplikovaná. Po prečítaní tohto článku sa naučíte múdrosť smerníc a nezávisle napíšete pravidlá pre súbor robots.txt na svojej stránke.

Na vytvorenie súboru robots.txt je syntax jednoduchá, ale nie hovorová. Direktívy o víťazstve nie sú bohaté. Pozrime sa podrobne na pravidlá, štruktúru a syntax súboru robots.txt.

Všeobecné pravidlá robots.txt

Po prvé, samotný súbor robots.txt je chybou materského kódu ANSI.

Iným spôsobom nie je možné napísať pravidlá žiadnych národných abecied na písanie, možná je len latinka.

Štrukturálne môže byť súbor robots.txt zložený z jedného alebo viacerých blokov inštrukcií, okremo pre roboty rôznych systémov poke. Blok kože alebo sekcia môže stanoviť pravidlá (smernice) pre indexovanie stránky iným vyhľadávacím systémom.

Samotné smernice, bloky pravidiel a medzi nimi nesmú mať žiadne nadpisy a symboly.

Smernice a bloky pravidiel sa prenesú do preneseného riadku. Jedno priznanie, tse komentare.

Komentáre v súbore robots.txt

Pre komentáre sa používa symbol '#'. Ak umiestnite symbol „mriežky“ na klas v rade, potom až do konca radu bude celá vec ignorovaná robotmi.

User-agent: *
Disallow: / css # písanie komentára
# Napíš ešte jeden komentár
Disallow: /img

Sekcie v súbore robots.txt

Keď robot číta súbor, robotovi systému vyhľadávacieho nástroja je adresovaná iba časť, takže ako v časti je používateľský agent špecifikovaný vo vyhľadávacom systéme Yandex, potom robot prečíta iba adresovanú časť. do tej sekcie, ignorujúc ostatných, v tom čísle a sekcii s direktívou pre všetky roboty - User-agent: *.

Koža z rezov je nezávislá. Sekcia môže byť malá, pre robotickú kožu alebo iné šokové systémy, takže jedna je univerzálna, pre všetky roboty alebo roboty jedného systému. Ak existuje iba jedna sekcia, začína od prvého riadku súboru a preberá všetky riadky. Ako časť šprota, potom je smrad vinný, ale rozdelený symbolom nového radu, ak je len jeden.

Sekcia je vždy založená na smerniciach User-agent a nahrádza systém poke, ktorý je uznávaný pre roboty, ale nie je univerzálnou sekciou pre všetkých robotov. V praxi to vyzerá takto:

Používateľský agent: YandexBot
# Používateľský agent pre roboty Yandex
User-agent: *
# Používateľský agent pre všetky roboty

Pererakhovuvaty kіlka іmen botіv oplotené. Pre robotov systému skin-push existuje vlastná sekcia, vlastný blok pravidiel. Ak sú podľa vás pravidlá pre všetkých robotov rovnaké, vyhrajte jednu univerzálnu, všeobecnú sekciu.

Smernice, čo sa deje?

Direktíva – buď príkaz, alebo pravidlo, ktoré informuje robota pre miešanie o rovnakých informáciách. Smernica hovorí vyhľadávaciemu robotovi, ako indexovať vašu stránku, ako nie sú viditeľné katalógy, kde je mapa webu vo formáte XML, ako je názov domény hlavným zrkadlom a ďalšie technické podrobnosti.

Sekcia robots.txt pozostáva zo štyroch príkazov,
smernice. Syntax smerníc je nasledovná:

[DirectiveName]: [Nevyhnutná jazyková medzera] [hodnota] [Potrebná jazyková medzera]

Smernica je napísaná v jednom riadku, bez delenia slov. Podľa akceptovaných štandardov medzi smernicami v jednej sekcii nie je povolené preskočenie riadkov, takže všetky smernice jednej sekcie sú napísané na riadok vzhľadu bez ďalších preskočení riadkov.

Poďme si popísať význam hlavných víťazných smerníc.

Zakázať smernicu

Najviac napadnutá smernica je v súbore robots.txt, „Disallow“ je strážca. Direktíva „Disallow“ bráni indexácii osoby, ktorá jej bola pridelená. Môže byť tiež použitý ako bočný panel, bočný panel, ktorý môže byť použitý ako „maska“ vo vašej adrese URL (ceste), časti webu alebo adresára (priečinku) alebo webu ako celku.

"*" - zirochka znamená - "či je veľa symbolov". Spôsob / priečinok * je teda rovnaký ako "/ folders", "/ folder1", "/ folder111", "/ foldersssss" alebo "/ folder". Roboty pri čítaní pravidiel automaticky pridávajú znak „*“. Na zadku smerujúcom nižšie sú porušujúce smernice úplne rovnaké:

Disallow: /news
Disallow: /news*

"$" - znak dolára je blokovaný robotmi pri čítaní smerníc, automaticky pripojí symbol "*"(Ziročka) na konci smernice. Inými slovami, symbol "$" znamená koniec radu zarovnania. V našej aplikácii teda blokujeme indexovanie priečinka „/“, ale nie v priečinkoch „/ folder1“, „/ folder111“ alebo „/ foldersssss“:

User-agent: *
Disallow: /folder$

"#" - (ostrý) znak komentára. Poke systémy ignorujú všetko, čo je napísané za ďalšou ikonou v rovnakom riadku.

Povoliť smernicu

Direktíva ALLOW do súboru robots.txt je významovo opačná ako direktíva DISSALOW, direktíva ALLOW je samostatná. V nižšie uvedenom príklade je znázornené, že indexujeme celú webovú stránku priečinka / priečinka crim:

User-agent: *
Povoliť: /priečinok
zakázať: /

Hodinová šľahacia zásoba „Povoliť“, „Zakázať“ a Priorita

Nezabudnite na pochopenie priorít v plotoch a povoleniach, v pokynoch pre objednávky. Predtým bola priorita uvedená v poradí hlasovania plotu a povolenia. Priorita je vždy priradená najdôležitejšej ceste pridelenej v rámci jedného bloku pre robota systému poke (User-agent), v poradí zväčšovania dĺžky cesty a miesta vloženia smernice. podľa toho, ktorá cesta je prioritnejšia:

User-agent: *
Povoliť: / zložky
Disallow: /priečinok

V umiestnenej aplikácii je povolené indexovať adresy URL začínajúce na „/ folders“, ale je to zablokované v cestách, takže v ich adresách URL je povolený „/ folder“, „/ folderssss“ alebo „/ folder2“. V čase použitia tej istej cesty, urážky smerníc „Povoliť“ a „Zakázať“, má prednosť smernica „Povoliť“.

Prázdna hodnota parametra v príkazoch „Povoliť“ a „Zakázať“.

Ospravedlnenia WEB-maystrіv sú zmenšené, ak je v súbore robots.txt v direktíve "Disallow"
nezabudnite zahrnúť znak "/". Tse є nesprávny, pardon výklad významu smerníc a їx syntax. V dôsledku toho sa blokovacia smernica zmení: „Disallow:“ je úplne identická s „Allow: /“. Správne blokovanie pri indexácii celej lokality vyzerá takto:

To isté možno povedať o "Povoliť:". Direktíva „Allow:“ bez symbolu „/“ blokuje indexovanie celej lokality, rovnako ako „Disallow: /“.

Smernica o mapách stránok

Pre všetky kánony SEO-optimalizácie je potrebné vygenerovať mapu stránok (SITEMAP) vo formáte XML a odoslať ju do vyhľadávačov.

Bez ohľadu na funkčnosť "skriniek pre WEB-masterov" v poke systémoch je potrebné deklarovať prítomnosť sitemap.xml a v robots.txt pre dodatočnú smernicu " SITEMAP". Roboty Poshukovi pri prehľadávaní vašich stránok pošlú vloženie do súboru sitemap.xml a budú obov'yazkovo vikoristovuvat yogo počas nadchádzajúcich prehľadávaní. Príklad použitia direktívy sitemap v súbore robots.txt:

User-agent: *
Sitemap: https://www.domainname.zone/sitemap.xml

hostiteľskej smernice

Ďalšou dôležitou smernicou robots.txt je smernica HOSTITEĽ.

Upozorňujeme, že nie všetky vyhľadávacie systémy je možné rozpoznať. Ale "Yandex" hovorí, že číta túto smernicu a Yandex v Rusku je hlavnou "ročenkou vtipov", nebudeme ignorovať smernicu "hostiteľ".

Smernica Tsya hovoriť s poke systémami, ktorých doménou je hlavné zrkadlo. Všetci vieme, že stránka môže mať adresu matky. Do adresy URL lokality môžete zahrnúť predponu WWW alebo lokalita môže byť matkou názvu domény, napríklad doména.ru, doména.com, domen.ru, www.domen.ru. Na samotnú os si v takýchto situáciách pamätáme aj vyhľadávací systém v súbore robots.txt pre pomoc s príkazom hostiteľ, keďže tieto názvy sú hlavné. Význam smernice je názov samotného zrkadla hlavy. Uveďme si príklad. Môžeme mať niekoľko názvov domén (domain.ru, domain.com, domen.ru, www.domen.ru) a všetky smrady presmerujú divákov na stránku www.domen.ru, záznam v súbore robots.txt bude vyzerať Páči sa ti to:

User-agent: *
Hostiteľ: www.domain.ru

Ak chcete, aby vaša značka vyzerala ako zrkadlo bez predpony (WWW), potom by ste zjavne mali uviesť v smernici vášho webu bez predpony.

Smernica HOST rieši problém duplicitných stránok, ktoré sa často stretávajú s webovými majstrami a SEO faksimilemi. Preto je potrebné smernicu HOST zoradiť v jazyku, pretože je zameraná na ruský segment a je dôležité, aby ste zaradili svoju stránku do vyhľadávacieho systému Yandex. Opakujeme, iba "Yandex" deklaruje čítanie týchto smerníc. Pre inštaláciu čelného zrkadla do iných tlačných systémov je potrebné urýchliť úpravy v skriniach WEB-masterov. Nezabudnite, že názov zrkadla hlavy môže byť priradený správne (správny pravopis, správne kódovanie a syntax v súbore robots.txt). Direktíva súboru je povolená iba raz. Ak láskavo poviete її trochu času, potom roboty zaplatia iba prvý vstup.

Smernica o oneskorenom prehľadávaní

Technický tím vyhľadávacích robotov dostal pokyn, pretože často je potrebné skontrolovať vašu stránku. Presnejšie povedané, smernica Crawl-delay špecifikuje minimálne prerušenie medzi indexovým prehľadávaním vašej lokality robotmi (prehľadávač systémov indexového prehľadávania). Potrebujete uviesť pravidlo? Ak k vám roboti chodia častejšie a nové informácie na stránke sú oveľa rýchlejšie, potom s hodinou vyhľadávacích systémov zavolajte na zriedkavú zmenu informácií na vašej stránke a budú sa na vás pozerať oveľa rýchlejšie, nižšie by ako tebe. Toto je vtipný argument o chamtivosti používania smernice „Crawl-delay“. Teraz technický argument. Roboty častejšie vytvárajú ďalší útok na vašu stránku, ktorý pre vás nie je potrebný. Významné príkazy skôr označujú celé číslo, ale zároveň sa roboty naučili čítať zlomkové čísla. Zadajte hodinu v sekundách, napríklad:

Používateľský agent: Yandex
Oneskorenie indexového prehľadávania: 5.5

Smernica o čistých parametroch

Direktíva neobov'yazkova "Clean-param" nariaďuje shoo robotom parametrizovať adresu stránky, pretože nie je potrebné indexovať a sledovať rovnakú URL. Napríklad máte zobrazenú jednu a tú istú stranu pre rôzne adresy, ktoré sú riadené jedným alebo druhým parametrom:

www.domena.zóna/priečinok/stranka/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/index.php? folder=1&page=1

Poshukovi roboti budú skenovať všetky podobné strany a pamätajú si, že strany sú rovnaké, mіstat jeden a ten istý obsah. V prvom rade vytvorte podvod v štruktúre webu počas indexovania. Iným spôsobom, dodatkove navantazhennya na serveri zroste. Po tretie, swidkіst skanuvannya pomit vpade. Na odstránenie týchto nepresností sa používa smernica „Clean-param“. Pokročilá syntax:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [Spôsob]

Direktívu "Clean-param", ako napríklad "Host" nečítajú všetky vyhľadávacie systémy. Ale Yandex її razumіє.

Pardons, ktoré sa často používajú v súbore robots.txt

Súbor robots.txt sa nenachádza v koreňovom adresári stránky

Súboroví roboti. txt sa previnil umiestnením do koreňového adresára webu, iba v koreňovom adresári. Všetky ostatné súbory s rovnakými názvami, ale nachádzajúce sa v iných priečinkoch (adresároch), systémy poke ignorujú.

Ospravedlňujeme sa za názov súboru robots.txt

Súbor je napísaný malými písmenami (malými písmenami) a musí byť pomenovaný roboty.TXT. Všetky ostatné možnosti pardony rešpektujú a o dostupnosti súboru vás budú informovať vyhľadávania. Časti milosti vyzerajú takto:

ROBOTS.txt
Robots.txt
robot.txt

Wiki neplatných znakov v súbore robot.txt

Súbor robots.txt má na svedomí kódovanie ANSI a iba latinskú abecedu. Písanie smerníc a ich významov s akýmikoľvek inými národnými symbolmi je neprijateľné, s obviňovaním namiesto komentárov.

Ospravedlňujeme sa za syntax súboru robots.txt

Uistite sa, že prísne dodržiavate pravidlá syntaxe v súbore robots.txt. Odpustenie syntaxe môže viesť k ignorovaniu celého súboru systémom poke.

Preusporiadanie robotov dekilkoh v jednom riadku v smernici User-agent

Pardon, často povolené majstrami webu, skôr cez riadok, nerozdeľujte súbor robots.txt na sekcie, ale kombinujte príkazy pre obtiskové poshuk systémy do jednej sekcie, napríklad:

User-agent: Yandex, Googlebot, Bing

Pre systém stláčania kože je potrebné vytvoriť si vlastnú sekciu s vylepšením týchto smerníc, ako keby ste čítali systém ťahania a pustenia. Vynyatkom, v tomto prípade existuje jedna sekcia pre všetky zvukové systémy:

User-agent s prázdnymi hodnotami

Direktíva User-agent nemôže byť prázdna. Iba „Povoliť“ a „Zakázať“ môžu byť prázdne a potom s vylepšením toho, ktorý zmení jeho význam. Zadanie direktívy User-agent s prázdnou hodnotou je hrubá pardon.

Koľko hodnôt v smernici Disallow

Rіdshe zustrichaetsya pardon, ale, tim nie menej, pravidelne môžete bachiti na stránkach, špecifikovaním hodnoty dekіlkoh v smerniciach Allow a Disallow, napríklad:

Disallow: /folder1/folder2/folder3

Disallow: /priečinok1
Disallow: /priečinok2
Disallow: /folder3

V súbore robots.txt chýbajú príkazy priority

Tsya pardon bula popísal viac, ale pre upevnenie materiálu opakujeme. Predtým bola priorita daná poradím zadávania smerníc. V tento deň sa zmenili pravidlá, prednosť sa určuje podľa predchádzajúceho riadku. Ak má súbor dve vzájomne sa vylučujúce direktívy, Allow a Disallow, s rovnakým miestom, potom bude mať prednosť Allow.

Poshukovі systems and robots.txt

Smernice v súbore robots.txt sa odporúčajú pre systémy poke. Tse znamená, že pravidlá čítania možno pravidelne meniť alebo aktualizovať. Takže si len pamätajte, že skin posh systém spracováva direktívy do súboru vlastným spôsobom. І nie všetky kožné smernice čítajú shukovy systémy. Napríklad smernicu "Host" dnes číta iba Yandex. Ak áno, Yandex nezaručuje, že názov je špecifikovaný pre doménu, pretože zrkadlový príznak v smernici Host bude rozpoznaný ako príznak, ale potvrdí sa, že bude daná priorita určenému názvu v smernici.

Keďže máte malý súbor pravidiel, môžete vytvoriť jednu sekciu pre všetky roboty. V inom prípade neváhajte a vytvorte okremі sekcie pre dermálne škrípanie vášho poshukovoy systému. Zvlášť stojí za to ísť k plotom, ak nechcete, aby premrhali piesne po stranách.

Postupne vyplňte všetky povinné polia. Vo svete vašich aplikácií budete svoj Robots.txt napĺňať príkazmi. Nižšie je uvedený popis všetkých pokynov pre súbor Robots.txt.

zapamätaj si, kopírovať a vložte text do textového editora. Uložte súbor ako „robots.txt“ v koreňovom adresári vašej lokality.

Popis formátu súboru robots.txt

Súbor robots.txt sa skladá zo záznamov, ktorých vzhľad sa skladá z dvoch polí: riadkov s názvom klientskeho programu (user-agent) a jedného alebo viacerých riadkov, ktoré začínajú direktívou Disallow:

Smernica ":" hodnota

Robots.txt je vinný z toho, že je v textovom formáte Unix. Väčšina dobrých textových editorov už dokáže konvertovať znaky a preložiť reťazec Windows do Unixu. V opačnom prípade je na vine váš FTP klient. Na úpravu nepoužívajte HTML editor, najmä taký, ktorý nedokáže zobraziť kód v textovom režime.

smernice user-agent:

Pre Rambler: User-agent: StackRambler Pre Yandex: User-agent: Yandex Pre Google: User-Agent: googlebot

Môžete vytvoriť pokyny pre všetky roboty:

User-agent: *

smernice Zakázať:

Druhá časť záznamu je uložená v riadku Disallow. Linky - direktívy (inštrukcie, príkazy) pre tohto robota. V skupine vzhľadov, ktorú zadáva User-agent v rade, je na vine iba jedna inštrukcia Disallow. Počet inštrukcií Disallow NIE JE obmedzený, hovoria robotovi, aby pracoval ako súbory a/alebo adresáre, ktoré robot nemôže indexovať. Môžete indexovať súbor alebo adresár.

Na indexovanie adresára /cgi-bin/ prichádza nasledujúca direktíva:

Disallow: / cgi-bin / Rešpektujte / vo svete, pomenujte priečinky! Aby sa zabránilo povoleniu samotného adresára "/ dir", inštrukcia je chybou matky: "Disallow: / dir /". A riadok "Disallow: / dir" chráni pred všetkými stranami servera, mimo nich (ako koreňový adresár servera) začína "/ dir". Napríklad: "/dir.html", "/dir/index.html", "/adresar.html".

Direktíva je napísaná týmto spôsobom na indexovanie súboru index.htm v koreňovom adresári:

Disallow: /index.htm

smernice povoliť Pochopenie Yandex.

User-agent: Yandex Allow: / cgi-bin Disallow: / # zahryvayut všetky uzavreté dokumenty, crim strany začínajú od "/cgi-bin" Zamyslite sa nad štruktúrou stránky, aby sa dokumenty uzavreli na indexovanie, ak je to možné, na jednom mieste.

Ak je direktíva Disallow prázdna, znamená to, že robot môže indexovať VŠETKY súbory. Pre pole vzhľadu User-agent môže byť prítomná aspoň jedna direktíva Disallow, aby bol súbor robots.txt overený. Novo prázdny súbor robots.txt znamená to isté, akoby sa nič nestalo.

Ramblerov robot chápania * ako keby to bol symbol, inštrukcia Disallow: * znamená indexovanie celej stránky.

Direktívy Povoliť, Zakázať bez parametrov. S počtom parametrov pre direktívy Allow, Disallow sa zaobchádza nasledovne: User-agent: Yandex Disallow: # tezh sho i Allow: / User-agent: Yandex Allow: # tezh sho i Disallow: /

Wiki špeciálnych znakov "*" a "$".
Pri zadávaní riadkov príkazov Allow-Disallow môžete vybrať špeciálne znaky „*“ a „$“ a nastaviť v tomto poradí bežné virazi. Špeciálny znak "*" znamená, či (vrátane prázdnej) sekvencie znakov alebo nie. použiť:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" a "/cgi-bin/private/test.aspx" Disallow: / * private # not only " /private ", ale i"/cgi-bin/private" špeciálny znak "$".
Na zatvorenie konca pravidla vzhľadu opísaného v súbore robots.txt je priradené „*“, napríklad: User-agent: Yandex Disallow: / cgi-bin * # Blokovanie prístupu k stránkam je založené na „/ cgi-bin " Disallow: / cgi-bin # rovnakým spôsobom, ako povedať "*" na konci pravidla, môžete otočiť špeciálny znak "$", napríklad: User-agent: Yandex Disallow: / príklad $ # hedge "/ príklad", ale nebráňte "/example.html" User-agent: Yandex Disallow: / example # hedge a "/example" a "/example.html" User-agent: Yandex Disallow: / example $ # len harrow "/example" Disallow: / example * $ # tak ako "Disallow: /example" /example.html /example

smernice Hostiteľ.

Ak je vaša stránka zrkadlová, špeciálny zrkadlový robot ju označí a vytvorí skupinu zrkadiel pre vašu stránku. Vo vtipe je bratov osud len zrkadlovou značkou. Pomocník súboru robots.txt môžete špecifikovať pomocou direktívy "Host" a zadaním parametra name zrkadla hlavy. Smernica "Host" nezaručuje výber určeného hlavného zrkadla, ochrany, algoritmu, keď je rozhodnutie prijaté hostiteľom s vysokou prioritou. Butt: # Kde www.glavnoye-zerkalo.ru je zrkadlovým obrazom stránky, potom robots.txt pre # www.neglavnoye-zerkalo.ru vyzerá takto User-Agent: * Disallow: / forum Disallow: / cgi-bin Hostiteľ: www.glavnoye -zerkalo.ru Kvôli spôsobu zámeny s robotmi, keďže pri spracovaní robots.txt nevyhovujú štandardu, treba do skupiny pridať smernicu "Host", ktorá začína od "Používateľ" -Agent" záznam, bez sprostredkovaného odoslania "Disallow" ("Allow" direktívy) ) . Argumentom direktívy "Host" je názov domény, za ktorým nasleduje číslo portu (80 pre zámok), za ktorým nasleduje dvojitý reťazec. Parametre hostiteľskej smernice sú nastavené na jeden platný názov hostiteľa (t. j. v súlade s RFC 952 a nie na IP adresu) a platné číslo portu. Nesprávne zložené riadky „Host:“ sa ignorujú.

Použiť ignorovanie príkazov hostiteľa:

Hostiteľ: www.myhost-.ru Hostiteľ: www.-myhost.ru Hostiteľ: www.myhost.ru:100000 Hostiteľ: www.my_host.ru Hostiteľ: .my-host.ru: 8000 Hostiteľ: my-host.ru. Hostiteľ: my..host.ru Hostiteľ: www.myhost.ru/ Hostiteľ: www.myhost.ru:8080/ Hostiteľ: 213.180.194.129 Hostiteľ: www.firsthost.ru, www.secondhost.ru # v jednom rade - jeden doména! Hostiteľ: www.firsthost.ru www.secondhost.ru # v jednom rade - jedna doména !! Hostiteľ: ekіpazh-svyaz.rf

smernice Crawl-oneskorenie

Nastavte časový limit v sekundách, aby robot na indexové prehľadávanie stiahol stránky z vášho servera (oneskorenie prehľadávania).

Ak je server veľmi zaneprázdnený a nemôže ho stiahnuť, zrýchlite ho pomocou smernice „Crawl-delay“. Vaughn vám umožňuje nastaviť minimálnu dobu jednej hodiny (v sekundách) pre vyhľadávacieho robota medzi koncom jednej strany a začiatkom útoku. Kvôli zámene s robotmi, keďže pri spracovaní robots.txt nedodržiavajú normu, je potrebné do skupiny, ktorá začína od položky "User-Agent", pridať direktívu "Crawl-delay" bez medziposlania direktívy "Disallow" ("Allow").

Chybový robot Yandex zaznamená hodnotu Crawl-Delay shot, napríklad 0,5. Nezaručujeme, že spoof robot navštívi vašu stránku každú sekundu, ale dáme robotovi väčšiu voľnosť a umožníme vám urýchliť prehľadávanie stránky.

User-agent: Yandex Crawl-oneskorenie: 2 # nastaviť časový limit na 2 sekundy User-agent: * Disallow: / search Crawl-delay: 4,5 # nastaviť časový limit na 4,5 sekundy

smernice Čistý param

Smernica na zakázanie parametrov z riadku adresy. Požiadať o takýto parameter a nie o to - budú považované za identické.

Prázdne riadky a komentáre

Prázdne riadky sú povolené medzi skupinami inštrukcií, ktoré zadáva User-agent.

Inštrukcia Disallow je chránená, iba ak nie je objednaná, či je riadok User-agent rovnaký ako riadok User-agent.

Akýkoľvek text so znakom libry „#“ až do konca riadka sa považuje za komentár a ignoruje sa.

zadok:

Ďalší jednoduchý súbor robots.txt ochrana indexácie všetkých strán stránky všetkým robotom, zločin robota Rambler, ktorý má na druhej strane povolené indexovať všetky strany stránky.

# Pokyny pre všetky roboty User-agent: * Disallow: / # Pokyny pre robota Rambler User-agent: StackRambler Disallow:

Predĺžené odpustky:

Invertovaná syntax: User-agent: / Disallow: StackRambler A je to vinné takto: User-agent: StackRambler Disallow: / Kópia príkazov Disallow v jednom riadku: Disallow: / css / / cgi-bin / / obrázky / Správne takto : Disallow: / css/Disallow:/cgi-bin/Disallow:/images/
    Poznámky:
  1. Je neprijateľné mať prázdne riadky medzi direktívami „User-agent“ a „Disallow“ („Allow“), ako aj medzi samotnými direktívami „Disallow“ („Allow“).
  2. Odporúča sa vložiť prázdny nový riadok pred direktívu skinu "User-agent" až do štandardu.

Ahojte všetci! Dnes by som vám chcel povedať o súbor robots.txt. Na internete sa teda píše veľa vecí, ale úprimne, sám som dlho nevedel prísť na to, ako vytvoriť správny súbor robots.txt. Na pіdbag som zrobiv jeden a vіn stojí na všetkých mojich blogoch. Nezaznamenal som žiadne problémy, súbor robots.txt funguje dobre.

Robots.txt pre WordPress

A teraz je zrejme potrebný súbor robots.txt? Vidpovid všetky rovnaké -. Robots.txt je teda jednou zo súčastí optimalizácie webu pre vyhľadávače (pred príhovorom čoskoro prebehne lekcia, ktorá bude priradená celej internej optimalizácii webu na WordPresse. Takže nezabudnite prihláste sa na odber RSS, aby vám neušiel žiadny materiál. ).

Jednou z funkcií tohto súboru je indexovanie plotu nevhodné strany stránky. Tiež sú adresy špecifikované v novom a je zaregistrovaný smut zrkadlová stránka(Stránka s www alebo bez www).

Poznámka: pre push systémy sú jedna a tá istá stránka s www a bez www úplne rozdielne stránky. Ale, keď pochopil, že namiesto týchto stránok ich vyhľadávače „lepia“. Pre Toma je dôležité, aby na stránku v súbore robots.txt napísal smut mirror. Ak chcete rozpoznať hostiteľa (z www alebo bez www, stačí do prehliadača zadať adresu vašej stránky, napríklad z www, čo vás automaticky prenesie na tú istú stránku bez www, teda zrkadlom značky vašej stránky bez www. I spodіvayus správne vysvetľuje.

Takže os, ktoré prikázanie, podľa môjho názoru, správny súbor robots.txt pre wordpress Môžete sa posunúť nižšie.

Opravte súbor Robots.txt pre WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * /feed
Disallow: /*? *
Disallow: /tag

Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * /feed
Disallow: /*? *
Disallow: /tag
hostiteľ: stránka
.gz
Sitemap: https://site/sitemap.xml

Všetko uvedené vyššie je potrebné skopírovať do textového dokumentu s príponou.txt tak, aby ste súbor pomenovali robots.txt. Pomocou doplnkového programu môžete vytvoriť napríklad dánsky textový dokument. Tilki, nezabudni, buď láskavý, zmena v zostávajúcich troch riadkoch adresu na adresu vašej webovej stránky. Súbor robots.txt je zodpovedný za zakorenenie v koreňovom adresári blogu, teda v rovnakom priečinku, kde sa nachádzajú priečinky wp-content, wp-admin a ďalšie.

Ak nechcete vytvárať daný textový súbor, stačí pridať robots.txt a pridať tam aj 3 riadky.

Chcem podotknúť, že v technických častiach, o veciach, ktoré budú spomenuté nižšie, nie je potrebné, aby som sa veľmi zamotával. Navodzhu їх pre "vedieť", takže pohyb divoký výhľad, aby vedeli, čo je potrebné.

Otzhe, riadok:

user-agent

nastaviť pravidlá pre takého nakupujúceho: napríklad „*“ (zirochkoy) znamená, že pravidlá sú pre všetky pošukovy systémy a to, čo je nižšie

Používateľský agent: Yandex

znamená, že tieto pravidlá sú len pre Yandex.

Zakázať
Okamžite ste "bolt" boli distribuované, pretože nie je potrebné indexovať poke systémy. Napríklad na strane https: // site / tag / seo mám dvojitý článok (opakovaný) s najvýznamnejšími článkami a duplicita strán sa negatívne podpisuje na by-šukovskom priesmyku, k tomu je veľmi zle, tieto sektory je potrebné uzavrieť pre indexovanie, takže si na pomoc použijeme toto pravidlo:

Disallow: /tag

Takže os, v tom robots.txt, ktorý dal viac vína, uzavrel index a môže mať všetky nevhodné časti webu na WordPresse, potom stačí vyplniť všetko ako є.

Hostiteľ

Tu sa pýtame špinavé zrkadlo na stránku, o ktorej som objavil trochu viac.

Sitemap

Vo zvyšných dvoch riadkoch nastavíme adresu na dve mapy stránok, vytvorené pre pomoc.

Možné problémy

A os cez riadky qiu v robots.txt, zastavil som indexovanie príspevkov na webe:

Disallow: /*? *

Práve tak samotný riadok v robots.txt bráni indexovaniu článkov, ktoré prirodzene nepotrebujeme. Ak to chcete opraviť, stačí odstrániť 2 riadky (v pravidlách pre všetky systémy push a pre Yandex) a zostávajúci správny súbor robots.txt pre web WordPress bez CNC bude vyzerať ako nadchádzajúca hodnosť:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * /feed
Disallow: /tag

Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * /feed
Disallow: /tag
hostiteľ: stránka
Sitemap: https://site/sitemap.xml

Aby ste si overili, že sme súbor robots.txt vložili správne, odporúčam vám použiť službu Yandex Webmaster (ako sa zaregistrovať v tejto službe som ju otvoril).

Ideme na pobočku Vylepšené indexovanie -> Analýza súboru robots.txt:

Už tam kliknite na tlačidlo „Získať súbor robots.txt z lokality“ a potom kliknite na tlačidlo „Skontrolovať“:

Hneď ako začnete hovoriť o ďalšom kroku, znamená to, že máte správny súbor robots.txt pre Yandex:

Nie všetci moderní webmasteri vedia pracovať s HTML kódom. Pre niekoho je veľmi jednoduché zistiť, ako vyzerajú funkcie, ktoré sú zapísané v súboroch kľúčov CMS. Vnútornosti vášho zdroja, akým je napríklad súbor robots.txt, sú intelektuálne silné, no buti je vinný z toho, že je špión, ako ryba vo vode. Jemné vyladenie stránky vám umožňuje zlepšiť pozíciu vo vyhľadávaní, dostať ju na vrchol a úspešne zbierať návštevnosť.

Súbor robots.txt je jedným z hlavných prvkov priradenia zdroja k systémom vyhľadávacích nástrojov. Vіn mіstіt tehnіchnu іnformatsiyu i obmezhuє prístup k množstvu storіk shukovy roboty. Adzhe nie je ani zďaleka napísaný na koži, strana je vinná z toho, že sa vždy objavuje v očiach svedkov. Predtým ste na vytvorenie súboru txt robots potrebovali prístup cez FTP. Rozvoj CMS umožnil získať nový prístup priamo cez ovládací panel.

Na čo slúži súbor robots.txt?

Tento súbor obsahuje množstvo odporúčaní adresovaných poke robotom. V obzhuє їх prístup k deakih častiam stránky. Vďaka umiestneniu tohto súboru do koreňového adresára ho obaja nebudú môcť preskočiť. Výsledkom je, že míňanie na svoje zdroje, smrad na začiatku prečítať pravidlá jogy spracovania, a potom až potom začať prepisovať.

Týmto spôsobom je súbor inštruovaný vyhľadávacími robotmi, ktoré adresáre môže doména indexovať a takýto proces nie je povolený.

Keď sa pozrieme späť na skutočnosť, že proces hodnotenia súboru nezasahuje do stredu, veľa stránok sa robots.txt nepomstí. Ale spôsob úplného prístupu nemožno brať technicky správne. Pozrime sa na názov súboru robots.txt, čo je názov zdroja.

Je možné indexovať zdroj ako celok alebo súkromne, obkolesiť počet vyhľadávacích robotov, pretože budú matkou práva vykonávať indexovanie. Zadaním príkazu robots.txt, aby všetko zablokoval, môžete zdroj znova izolovať na hodinu opravy alebo rekonštrukcie.

Pred prejavom predajcovia Googlu webmasterom opakovane tvrdili, že za veľkosť 500 Kb nemôže súbor robots.txt. Tse sa vždy omilostilo počas indexácie. Ak vytvorím súbor ručne, potom je „dosiahnutie“ takejto veľkosti samozrejme nereálne. Ale os CMS, automaticky tvorí robots.txt, môžete výrazne zmeniť.

Stačí vytvoriť súbor pre nejakého žolíka

Ak sa bojíte urobiť jemné ladenie sami, môžete to urobiť automaticky. Іsnuyu konstruktorov, kotry zbiraet také súbory bez vašej účasti. Ten smrad je vhodný pre ľudí, ako len pre mužov, aby začali svoju vlastnú kariéru webmastera.

Ako môžete vidieť na obrázku, nastavenie konštruktora začína od zadania adresy lokality. Potom si vyberiete vyhľadávacie systémy, s ktorými plánujete pracovať. Ak vám nezáleží na type iného poke systému, nemusíte preň robiť žiadne nastavenia. Teraz prejdite do priečinkov a súborov, ku ktorým plánujete pristupovať. V tejto aplikácii môžete zadať adresu karty a zrkadlo vášho zdroja.

Generátor Robots.txt vyplní formulár vo svete dizajnéra. Všetko, čo budete v budúcnosti potrebovať - ​​stačí skopírovať text do txt súboru. Nezabudnite pomenovať svojich robotov.

Ako skontrolovať účinnosť súboru robots.txt

Ak chcete analyzovať súbor v Yandex, prejdite na druhú stranu v distribúcii Yandex.Webmaster. V dialógovom okne zadajte názov stránky a stlačte tlačidlo "zavantazhit".

Systém analyzuje súbor robots.txt a ukáže, ako prehľadávací robot pred indexovaním obíde strany, ktoré sú oplotené. V dôsledku problémov je možné príkazy upravovať a revidovať priamo v dialógovom okne. Pravda, ak náhodou skopírujete upravený text a vložíte ho do svojho súboru robots.txt v koreňovom adresári.

Podobnú službu poskytuje služba „Nástroje pre webhosting“ vo forme vyhľadávača Google.

Vytvorenie súboru robots.txt pre WordPress, Joomla a Ucoz

Rôzne CMS, ktoré odobrali veľkú popularitu na Runete, aby ukázali svoje verzie súborov robots.txt koristuvom. Deyakі z nich nie mayut takéto súbory zovsіm. Väčšina súborov je buď príliš univerzálna a nezaručuje zvláštnosti zdroja koristuvach, alebo môžu mať množstvo podstatných nedostatkov.

Dosvidcheny fahivets môžu manuálne opraviť tábor (v prípade nedostatku vedomostí je lepšie nepracovať). Ak sa bojíte rýpať do útrob stránky, poponáhľajte sa so služobníctvom svojich kolegov. Podobné manipulácie, ak viete, ako to urobiť, trvajú len pár hodín. Súbor robots.txt môže vyzerať napríklad takto:

V zostávajúcich dvoch riadkoch, keďže je nešikovné hádať, je potrebné zapísať údaje o zdroji energie.

visnovok

Є množstvo nováčikov, jazykové školenie na zvládnutie ako webmaster. І vlastná konfigurácia a údržba stránky - jedna z nich. Pochatkіvtsі web budіvniki môže použiť takéto palivové drevo na vybudovanie zdroja na hodinu, takže ho neskôr nebudete môcť vyhrabať. Ak nechcete míňať potenciálne publikum a pozíciu u diváka cez štruktúru webu, prejdite na proces nastavenia primeru a životaschopného.