Що таке файл robots txt і яким цілям він служить. Як редагувати файл robots txt. Блокування певних пошукових роботів і окремих папок

Robots.txt - це спеціальний файл, розташований в кореневому каталозі сайту. Веб-майстер вказує в ньому, які сторінки і дані закрити від індексації від пошукових систем. Файл містить директиви, які описують доступ до розділів сайту (так званий стандарт винятків для роботів). Наприклад, з його допомогою можна встановити різні настройки доступу для пошукових роботів, призначених для мобільних пристроїв і звичайних комп'ютерів. Дуже важливо налаштувати його правильно.

Чи потрібен robots.txt?

За допомогою robots.txt можна:

заборонити індексування схожих і непотрібних сторінок, щоб не витрачати краулінговий ліміт (кількість URL, яке може обійти пошуковий робот за один обхід). Тобто робот зможе проіндексувати більше важливих сторінок.
приховати зображення з результатів пошуку.
закрити від індексації неважливі скрипти, файли стилів і інші некритичні ресурси сторінок.

Якщо це завадить сканеру Google або Яндекса аналізувати сторінки, які не блокуйте файли.

Де лежить файл Robots.txt?

Якщо ви хочете просто подивитися, що знаходиться в файлі robots.txt, то просто введіть в адресному рядку браузера: site.ru/robots.txt.

Фізично файл robots.txt знаходиться в кореневій папці сайту на хостингу. У мене хостинг beget.ru, тому покажу розташування файлу robots.txt на цьому хостингу.

Як створити правильний robots.txt

Файл robots.txt складається з одного або декількох правил. Кожне правило блокує або дозволяє індексування шляху на сайті.

В текстовому редакторі створіть файл з ім'ям robots.txt і заповніть його відповідно до представлених нижче правилами.
Файл robots.txt повинен являти собою текстовий файл в кодуванні ASCII або UTF-8. Символи в інших кодуваннях неприпустимі.
На сайті повинен бути тільки один такий файл.
Файл robots.txt потрібно розмістити в кореневому каталозісайту. Наприклад, щоб контролювати індексацію всіх сторінок сайту http://www.example.com/, файл robots.txt слід розмістити за адресою http://www.example.com/robots.txt. Він не повинен знаходитися в підкаталозі(Наприклад, за адресою http://example.com/pages/robots.txt). Що стосується труднощів з доступом до кореневого каталогу зверніться до хостинг-провайдеру. Якщо у вас немає доступу до кореневого каталогу сайту, використовуйте альтернативний метод блокування, наприклад метатеги.
Файл robots.txt можна додавати за адресами з субдоменами(Наприклад, http: // website.example.com / robots.txt) або нестандартними портами (наприклад, http://example.com: 8181 /robots.txt).
Перевірте файл в сервісі Яндекс.Вебмастер і Google Search Console.
Завантажте файл в кореневу директорію вашого сайту.

Ось приклад файлу robots.txt з двома правилами. Нижче є його пояснення.

User-agent: Googlebot Disallow: / nogooglebot / User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml

пояснення

Агент користувача з назвою Googlebot не повинен індексувати каталог http://example.com/nogooglebot/ і його підкаталоги.
У всіх інших агентів користувача є доступ до всього сайту (можна опустити, результат буде тим же, так як повний доступ надається за замовчуванням).
Файл Sitemap цього сайту знаходиться за адресою http://www.example.com/sitemap.xml.

Директиви Disallow і Allow

Щоб заборонити індексування і доступ робота до сайту або деяким його розділах, використовуйте директиву Disallow.

User-agent: Yandex Disallow: / # блокує доступ до всього сайту User-agent: Yandex Disallow: / cgi-bin # блокує доступ до сторінок, # що починається з "/ cgi-bin"

Відповідно до стандарту перед кожною директивою User-agent рекомендується вставляти порожній новий рядок.

Символ # призначений для опису коментарів. Все, що знаходиться після цього символу і до першого перекладу рядка не враховується.

Щоб дозволити доступ робота до сайту або деяким його розділах, використовуйте директиву Allow

User-agent: Yandex Allow: / cgi-bin Disallow: / # забороняє завантажувати все, крім сторінок # що починаються з "/ cgi-bin"

Неприпустимо наявність порожніх перекладів рядка між директивами User-agent, Disallow і Allow.

Директиви Allow і Disallow з відповідного User-agent блоку сортуються по довжині префікса URL (від меншого до більшого) і застосовуються послідовно. Якщо для даної сторінки сайту підходить кілька директив, то робот вибирає має найбільший порядковий номер появи в сортованому списку. Таким чином, порядок проходження директив у файлі robots.txt не впливає на використання їх роботом. приклади:

# Вихідний robots.txt: User-agent: Yandex Allow: / catalog Disallow: / # Сортований robots.txt: User-agent: Yandex Disallow: / Allow: / catalog # дозволяє скачувати тільки сторінки, # що починаються з "/ catalog" # вихідний robots.txt: User-agent: Yandex Allow: / Allow: / catalog / auto Disallow: / catalog # Сортований robots.txt: User-agent: Yandex Allow: / Disallow: / catalog Allow: / catalog / auto # забороняє завантажувати сторінки, що починаються з "/ catalog", # але дозволяє скачувати сторінки, що починаються з "/ catalog / auto".

При конфлікті між двома директивами з префіксами однакової довжини пріоритет віддається директиві Allow.

Використання спецсимволов * і $

При вказівці шляхів директив Allow і Disallow можна використовувати спецсимволи * і $, задаючи, таким чином, певні регулярні вирази.

Спецсимвол * означає будь-яку (в тому числі порожню) послідовність символів.

Спецсимвол $ означає кінець рядка, символ перед ним останній.

User-agent: Yandex Disallow: /cgi-bin/*.aspx # забороняє "/cgi-bin/example.aspx" # і "/cgi-bin/private/test.aspx" Disallow: / * private # забороняє не тільки "/ private", # а й "/ cgi-bin / private"

Директива Sitemap

Якщо ви використовуєте опис структури сайту за допомогою файлу Sitemap, вкажіть шлях до файлу в якості параметра директиви sitemap (якщо файлів декілька, вкажіть всі). приклад:

User-agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Директива є меж секційної, тому буде використовуватися роботом незалежно від місця в файлі robots.txt, де вона вказана.

Робот запам'ятає шлях до файлу, обробить дані і буде використовувати результати при подальшому формуванні сесій завантаження.

Директива Crawl-delay

Якщо сервер сильно навантажений і не встигає відпрацьовувати запити робота, скористайтеся директивою Crawl-delay. Вона дозволяє задати пошуковому роботу мінімальний період часу (в секундах) між закінченням завантаження однієї сторінки і початком завантаження наступної.

Перед тим, як змінити швидкість обходу сайту, з'ясуйте до яких саме сторінок робот звертається частіше.

Проаналізуйте логи сервера. Зверніться до співробітника, відповідального за сайт, або до хостинг-провайдеру.
Подивіться список URL на сторінці Індексування → Статистика обходу в Яндекс.Вебмастере (виберіть пункт Усі сторінки).

Якщо ви виявите, що робот звертається до службових сторінок, забороніть їх індексування в файлі robots.txt за допомогою директиви Disallow. Це допоможе знизити кількість зайвих звернень робота.

Директива Clean-param

Директива працює тільки з роботом Яндекса.

Якщо адреси сторінок сайту містять динамічні параметри, які не впливають на їх вміст (ідентифікатори сесій, користувачів, реферерів і т. П.), Ви можете описати їх за допомогою директиви Clean-param.

Робот Яндекса, використовуючи цю директиву, що не буде багаторазово перезавантажувати дублює інформацію. Таким чином, збільшиться ефективність обходу вашого сайту, знизиться навантаження на сервер.

Наприклад, на сайті є сторінки:

Www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Параметр ref використовується тільки для того, щоб відстежити з якого ресурсу був зроблений запит і не змінює вміст, за всіма трьома адресами буде показана одна і та ж сторінка з книгою book_id = 123. Тоді, якщо вказати директиву наступним чином:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

робот Яндекса зведе всі адреси сторінки до одного:

Www.example.com/some_dir/get_book.pl?book_id=123

Якщо на сайті доступна така сторінка, саме вона буде брати участь в результатах пошуку.

синтаксис директиви

Clean-param: p0 [& p1 & p2 & .. & pn]

У першому полі через символ & перераховуються параметри, які роботу не потрібно враховувати. У другому полі вказується префікс шляху сторінок, для яких потрібно застосувати правило.

Примітка. Директива Clean-Param є меж секційної, тому може бути вказана в будь-якому місці файлу robots.txt. У разі, якщо директив зазначено кілька, всі вони будуть враховані роботом.

Префікс може містити регулярний вираз в форматі, аналогічному файлу robots.txt, але з деякими обмеженнями: можна використовувати тільки символи A-Za-z0-9 .- / * _. При цьому символ * трактується так само, як у файлі robots.txt: в кінець префікса завжди неявно дописується символ *. наприклад:

Clean-param: s /forum/showthread.php

Регістр враховується. Діє обмеження на довжину правила - 500 символів. наприклад:

Clean-param: abc /forum/showthread.php Clean-param: sid & sort /forum/*.php Clean-param: someTrash & otherTrash

Директива HOST

На даний момент Яндекс припинив підтримку даної директиви.

Правильний robots.txt: настройка

Вміст файлу robots.txt відрізняється в залежності від типу сайту (інтернет-магазин, блог), використовуваної CMS, особливостей структури і ряду інших чинників. Тому займатися створенням даного файлу для комерційного сайту, особливо якщо мова йде про складне проект, повинен SEO-фахівець з достатнім досвідом роботи.

Людина без спеціальної підготовки, швидше за все, не зможе прийняти правильного рішення щодо того, яку частину вмісту краще закрити від індексації, а який дозволити з'являтися в пошуковій видачі.

Правильний Robots.txt приклад для WordPress

User-agent: * # загальні правила для роботів, крім Яндекса і Google, # тому для них правила нижче Disallow: / cgi-bin # папка на хостингу Disallow: /? # Всі параметри запиту на головній Disallow: / wp- # всі файли WP: / wp-json /, / wp-includes, / wp-content / plugins Disallow: / wp / # якщо є підкаталог / wp /, де встановлена CMS ( якщо немає, # правило можна видалити) Disallow: *? s = # пошук Disallow: * & s = # пошук Disallow: / search / # пошук Disallow: / author / # архів автора Disallow: / users / # архів авторів Disallow: * / trackback # трекбеки, повідомлення в коментарях про появу відкритої # посилання на статтю Disallow: * / feed # все фіди Disallow: * / rss # rss фід Disallow: * / embed # все вбудовування Disallow: * / wlwmanifest.xml # xml-файл маніфесту Windows Live Writer (якщо не використовуєте, # правило можна видалити) Disallow: /xmlrpc.php # файл WordPress API Disallow: * utm * = # посилання з utm-мітками Disallow: * openstat = # посилання з мітками openstat Allow: * / uploads # відкриваємо папку з файлами uploads Sitemap: http://site.ru/sitemap.xml # адресу карти сайту User-agent: GoogleBot # правила для Google (коментарів не дублюю) Disallow: / cgi-bin Disallow: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / search / Disallow: / author / Disallow: / users / Disallow: * / trackback Disallow: * / feed Disallow: * / rss Disallow: * / embed Disallow: * / wlwmanifest.xml Disallow: /xmlrpc.php Disallow: * utm * = Disallow: * openstat = Allow: * / uploads Allow: /*/*.js # відкриваємо js-скрипти всередині / wp- (/ * / - для пріоритету) Allow: /*/*.css # відкриваємо css-файли всередині / wp- (/ * / - для пріоритету) Allow: /wp-*.png # картинки в плагінах, cache папці і т.д. Allow: /wp-*.jpg # картинки в плагінах, cache папці і т.д. Allow: /wp-*.jpeg # картинки в плагінах, cache папці і т.д. Allow: /wp-*.gif # картинки в плагінах, cache папці і т.д. Allow: /wp-admin/admin-ajax.php # використовується плагінами, щоб не блокувати JS і CSS User-agent: Yandex # правила для Яндекса (коментарів не дублюю) Disallow: / cgi-bin Disallow: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / search / Disallow: / author / Disallow: / users / Disallow: * / trackback Disallow: * / feed Disallow: * / rss Disallow: * / embed Disallow: * / wlwmanifest.xml Disallow: /xmlrpc.php Allow: * / uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Яндекс рекомендує не закривати # від індексування, а видаляти параметри міток, # Google такі правила не підтримує Clean-Param: openstat # аналогічно

Robots.txt приклад для Joomla

User-agent: *
Disallow: / administrator /
Disallow: / cache /
Disallow: / includes /
Disallow: / installation /
Disallow: / language /
Disallow: / libraries /
Disallow: / media /
Disallow: / modules /
Disallow: / plugins /
Disallow: / templates /
Disallow: / tmp /
Disallow: / xmlrpc /

Robots.txt приклад для Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: / bitrix /
Disallow: / auth /
Disallow: / personal /
Disallow: / upload /
Disallow: / search /
Disallow: / * / search /
Disallow: / * / slide_show /
Disallow: / * / gallery / * order = *
Disallow: / *? Print =
Disallow: / * & print =
Disallow: / * register =
Disallow: / * forgot_password =
Disallow: / * change_password =
Disallow: / * login =
Disallow: / * logout =
Disallow: / * auth =
Disallow: / *? Action =
Disallow: / * action = ADD_TO_COMPARE_LIST
Disallow: / * action = DELETE_FROM_COMPARE_LIST
Disallow: / * action = ADD2BASKET
Disallow: / * action = BUY
Disallow: / * bitrix _ * =
Disallow: / * backurl = *
Disallow: / * BACKURL = *
Disallow: / * back_url = *
Disallow: / * BACK_URL = *
Disallow: / * back_url_admin = *
Disallow: / * print_course = Y
Disallow: / * COURSE_ID =
Disallow: / *? COURSE_ID =
Disallow: / *? PAGEN
Disallow: / * PAGEN_1 =
Disallow: / * PAGEN_2 =
Disallow: / * PAGEN_3 =
Disallow: / * PAGEN_4 =
Disallow: / * PAGEN_5 =
Disallow: / * PAGEN_6 =
Disallow: / * PAGEN_7 =

Disallow: / * PAGE_NAME = search
Disallow: / * PAGE_NAME = user_post
Disallow: / * PAGE_NAME = detail_slide_show
Disallow: / * SHOWALL
Disallow: / * show_all =
Sitemap: http: // шлях до вашої карті XML формату

Robots.txt приклад для MODx

User-agent: *
Disallow: / assets / cache /
Disallow: / assets / docs /
Disallow: / assets / export /
Disallow: / assets / import /
Disallow: / assets / modules /
Disallow: / assets / plugins /
Disallow: / assets / snippets /
Disallow: / install /
Disallow: / manager /
Sitemap: http://site.ru/sitemap.xml

Robots.txt приклад для Drupal

User-agent: *
Disallow: / database /
Disallow: / includes /
Disallow: / misc /
Disallow: / modules /
Disallow: / sites /
Disallow: / themes /
Disallow: / scripts /
Disallow: / updates /
Disallow: / profiles /
Disallow: / profile
Disallow: / profile / *
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: / admin /
Disallow: / comment / reply /
Disallow: / contact /
Disallow: / logout /
Disallow: / search /
Disallow: / user / register /
Disallow: / user / password /
Disallow: * register *
Disallow: * login *
Disallow: / top-rated-
Disallow: / messages /
Disallow: / book / export /
Disallow: / user2userpoints /
Disallow: / myuserpoints /
Disallow: / tagadelic /
Disallow: / referral /
Disallow: / aggregator /
Disallow: / files / pin /
Disallow: / your-votes
Disallow: / comments / recent
Disallow: / * / edit /
Disallow: / * / delete /
Disallow: / * / export / html /
Disallow: / taxonomy / term / * / 0 $
Disallow: / * / edit $
Disallow: / * / outline $
Disallow: / * / revisions $
Disallow: / * / contact $
Disallow: / * downloadpipe
Disallow: / node $
Disallow: / node / * / track $
Disallow: / * &
Disallow: / *%
Disallow: / *? Page = 0
Disallow: / * section
Disallow: / * order
Disallow: / *? Sort *
Disallow: / * & sort *
Disallow: / * votesupdown
Disallow: / * calendar
Disallow: /*index.php
Allow: / *? Page =
Disallow: / *?
Sitemap: http: // шлях до вашої карті XML формату

УВАГА!

CMS постійно оновлюються. Можливо, знадобитися закрити від індексації інші сторінки. Залежно від мети, заборона на індексацію може зніматися або, навпаки, додаватися.

перевірити robots.txt

У кожного пошукача свої вимоги до оформлення файлу robots.txt.

Для того щоб перевірити robots.txtна коректність синтаксису і структури файлу, можна скористатися однією з онлайн-служб. Наприклад, Яндекс і Google пропонують власні сервіси аналізу сайту для веб-майстрів, які включають аналіз robots.txt:

Перевірка robotx.txt для пошукового робота Яндекса

Зробити це можна за допомогою спеціального інструменту від Яндекс - Яндекс.Вебмайстер, ще й двома варіантами.

Варіант 1:

Справа вгорі, що випадає - виберіть аналіз robots.txtабо за посиланням http://webmaster.yandex.ru/robots.xml

Не варто забувати про те, що всі зміни, які ви вносите в файл robots.txt, будуть доступні не відразу, а лише через деякий час.

Перевірка robotx.txt для пошукового робота Google

У Google Search Console виберіть ваш сайт, перейдіть до інструмента перевірки і перегляньте вміст файлу robots.txt. синтаксичніі логічніпомилки в ньому будуть виділені, а їх кількість - зазначено під вікном редагування.
Внизу на сторінці інтерфейсу вкажіть потрібний URL у відповідному вікні.
У спадному меню праворуч виберіть робота.
Натисніть кнопку ПЕРЕВІРИТИ.
З'явиться статус ДОСТУПНИЙабо НЕДОСТУПНИЙ. У першому випадку роботи Google можуть переходити за вказаною вами адресою, а в другому - немає.
При необхідності внесіть зміни в меню і виконайте перевірку заново. Увага!Ці виправлення не будуть автоматично внесені в файл robots.txt на вашому сайті.
Скопіюйте змінений зміст і додайте його в файл robots.txt на вашому веб-сервері.

Крім сервісів перевірки від Яндекс і Google, існує безліч інших онлайн валідаторів robots.txt.

Генератори robots.txt

Сервіс від SEOlib.ru .За допомогою даного інструменту можна швидко отримати і перевірити обмеження у файлі Robots.txt.
Генератор від pr-cy.ru .В результаті роботи генератора Robots.txt ви отримаєте текст, який необхідно зберегти в файл під назвою Robots.txt і завантажити в кореневій каталог вашого сайту.

Правильна, грамотна настройка кореневого файлу robots.txt одна з найважливіших завдань WEB-майстра. У разі непробачних помилок в пошуковій видачі може з'явитися безліч непотрібних сторінок сайту. Або, навпаки, будуть закриті для індексування важливі документи вашого сайту, в гіршому випадку, можна закрити для пошукових роботів всю кореневу директорію домену.

Правильна настройка файлу robots.txt своїми руками, насправді, завдання не дуже складна. Прочитавши цю статтю, ви навчитеся премудростям директив, і самостійно написати правила для файлу robots.txt на своєму сайті.

Для створення файлу robots.txt використовується певний, але не складний синтаксис. Використовуваних директив не багато. Розглянемо правила, структуру і синтаксис файлу robots.txt покроково і детально.

Загальні правила robots.txt

По-перше, сам файл robots.txt повинен мати кодування ANSI.

По-друге, не можна використовувати для написання правил ніяких національних алфавітів, можлива тільки латиниця.

Структурно файл robots.txt може складатися з одного або декількох блоків інструкцій, окремо для роботів різних пошукових систем. Кожен блок або секція мають набір правил (директив) для індексації сайту тієї чи іншої пошуковою системою.

У самих директивах, блоках правил і між ними не допускаються будь-які зайві заголовки і символи.

Директиви і блоки правил поділяються перенесенням рядка. Єдине припущення, це коментарі.

Коментування в robots.txt

Для коментування використовується символ '#'. Якщо ви поставите на початку рядка символ «решітки», то до кінця рядка весь вміст ігнорується пошуковими роботами.

User-agent: *
Disallow: / css # пишемо коментар
# Пишемо ще один коментар
Disallow: / img

Секції в файлі robots.txt

При прочитанні файлу роботом, використовується тільки секція адресована роботу цієї пошукової системи, тобто, якщо в секції, user-agent вказано ім'я пошукової системи Яндекс, то його робот прочитає тільки адресовану йому секцію, ігноруючи інші, в тому числі і секцію з директивою для всіх роботів - User-agent: *.

Кожна із секцій є самостійною. Секцій може бути кілька, для роботів кожної або деяких пошукових систем, так і одна універсальна, для всіх роботів або роботів однієї їх систем. Якщо секція одна, то починається вона з першого рядка файлу і займає все рядки. Якщо секцій кілька, то вони повинні бути розділені символом нового рядка, хоча б однієї.

Секція завжди починається з директиви User-agent і містить ім'я пошукової системи, для роботів якої призначена, якщо це не універсальна секція для всіх роботів. На практиці це виглядає так:

User-agent: YandexBot
# Юзер-агент для роботів системи Яндекс
User-agent: *
# Юзер-агент для всіх роботів

Перераховувати кілька імен ботів заборонено. Для ботів кожної пошукової системи створюється своя секція, свій окремий блок правил. Якщо, в вашому випадку, правила для всіх роботів однакові, використовуйте одну універсальну, загальну секцію.

Директиви, що це?

Директива - це команда або правило сообщающее пошуковому роботу певну інформацію. Директива повідомляє пошуковому боту, як індексувати ваш сайт, які каталоги не проглядається, де знаходиться карта сайту в форматі XML, яке ім'я домена є головним дзеркалом і деякі інші технічні подробиці.

Секція файлу robots.txt складається з окремих команд,
директив. Загальний синтаксис директив такий:

[Імя_діректіви]: [необов'язковий пробіл] [значення] [необов'язковий пробіл]

Директива пишеться в один рядок, без переносів. За прийнятим стандартам, між директивами в одній секції пропуск рядка не допускається, тобто всі директиви однієї секції пишуться на кожному рядку, без додаткових пропусків рядків.

Давайте опишемо значення основних використовуваних директив.

Директива Disallow

Найбільш використовувана директива в файлі robots.txt, це «Disallow» - забороняє. Директива «Disallow» забороняє індексацію зазначеного в ній шляху. Це може бути окрема сторінка, сторінки, що містять зазначену «маску» в своєму URL`е (шляху), частина сайту, окрема директорія (папка) або сайт цілком.

«*» - зірочка означає - «будь-яку кількість символів».Тобто, шлях / folder * однаковий за своїм значенням з «/ folders», «/ folder1», «/ folder111», «/ foldersssss» або «/ folder». Роботи, при читанні правил, автоматично дописують знак «*». У прикладі, наведеному нижче, обидві директиви абсолютно рівнозначні:

Disallow: / news
Disallow: / news *

«$» - знак долара забороняє роботам при читанні директив автоматично дописувати символ «*»(Зірочка) в кінці директиви. Іншими словами, символ «$» означає кінець рядка порівняння. Тобто, в нашому прикладі ми забороняємо індексацію папки «/ folder», але не забороняємо в папках «/ folder1», «/ folder111» або «/ foldersssss»:

User-agent: *
Disallow: / folder $

«#» - (Шарп) знак коментаря. Все, що написано після цього значка, в одній з ним рядку, ігнорується пошуковими системами.

Директива Allow

Директива ALLOW файлу robots.txt протилежна за своїм значенням директиві DISSALOW, директива ALLOW роздільна. У прикладі нижче показано, що ми забороняємо індексувати весь сайт крім папки / folder:

User-agent: *
Allow: / folder
Disallow: /

Приклад одночасного використання «Allow», «Disallow» і пріоритетність

Не забувайте, про розуміння пріоритетності при заборонах і дозволах, при вказівці директив. Раніше пріоритет вказувався порядком оголошення заборон і дозволів. Зараз пріоритет визначається зазначенням максимально існуючого шляху в межах одного блоку для робота пошукової системи (User-agent), в порядку збільшення довжини шляху і місця вказівки директиви, чим довше шлях, тим приоритетнее:

User-agent: *
Allow: / folders
Disallow: / folder

У наведеному прикладі вище дозволена індексація URL`ов починаються з «/ folders», але заборонена в шляхах, які мають в своїх URL`ах початок «/ folder», «/ folderssss» або «/ folder2». У разі потрапляння однакового шляху під обидві директиви «Allow» і «Disallow», перевага віддається директиві «Allow».

Пусте значення параметра в директивах «Allow» і «Disallow»

Зустрічаються помилки WEB-майстрів, коли в файлі robots.txt в директиві «Disallow»
забувають вказати символ «/». Це є неправильним, помилковим трактуванням значень директив і їх синтаксису. В результаті, яка забороняє директива стає роздільною: «Disallow:" абсолютно ідентична «Allow: /». Правильний заборона на індексацію всього сайту виглядає так:

Те ж саме можна сказати і про «Allow:». Директива «Allow:» без символу «/» забороняє індексацію всього сайту, так само як і «Disallow: /».

Директива Sitemap

За всіма канонами SEO-оптимізації, необхідно використовувати карту сайту (SITEMAP) в форматі XML і надавати її пошуковим системам.

Незважаючи на функціональність «кабінетів для WEB-майстрів» в пошукових системах, необхідно заявляти про присутність sitemap.xml і в robots.txt за допомогою директиви « SITEMAP». Пошукові роботи при обході вашого сайту побачать вказівку на файл sitemap.xml і будуть обов'язково використовувати його при наступних обходах. Приклад використання директиви sitemap в файлі robots.txt:

User-agent: *
Sitemap: https://www.domainname.zone/sitemap.xml

Директива Host

Ще однією важливою директивою robots.txt є директива HOST.

Вважається, що не всі пошукові системи її розпізнають. Але «Яндекс» вказує, що читає цю директиву, а Яндекс в Росії є основним «пошуковим годувальником», тому не будемо ігнорувати директиву «host».

Ця директива говорить пошуковим системам, який домен є головним дзеркалом. Всі ми знаємо, що сайт може мати кілька адрес. В URL сайту може включатися або виключатися префікс WWW або сайт може мати кілька доменних імен, наприклад, domain.ru, domain.com, domen.ru, www.domen.ru. Ось саме в таких випадках ми і повідомляємо пошуковій системі в файлі robots.txt за допомогою директиви host, яке з цих імен є головним. Значним директиви є саме ім'я головного дзеркала. Наведемо приклад. Ми маємо кілька доменних імен (domain.ru, domain.com, domen.ru, www.domen.ru) і всі вони перенаправляють відвідувачів на сайт www.domen.ru, запис у файлі robots.txt буде виглядати так:

User-agent: *
Host: www.domen.ru

Якщо ви хочете, щоб ваше головне дзеркало було без префікса (WWW), то, відповідно, слід вказати в директиві ім'я сайту без префікса.

Директива HOST вирішує проблему дублів сторінок, з якої дуже часто стикаються WEB-майстра і SEO-фахівці. Тому директиву HOST потрібно використовувати обов'язково, якщо ви націлені на російськомовний сегмент і вам важливо ранжування вашого сайту в пошуковій системі «Яндекс». Повторимося, на сьогодні про читання цієї директиви заявляє тільки «Яндекс». Для вказівки головного дзеркала в інших пошукових системах необхідно скористатися налаштуваннями в кабінетах WEB-майстрів. Не забувайте, що ім'я головного дзеркала має бути зазначено коректно (правильність написання, дотримання кодування і синтаксису файлу robots.txt). У файлі ця директива допускається тільки один раз. Якщо ви помилково вкажете її кілька разів, то роботи врахують тільки перше входження.

Директива Crawl-delay

Дана директива є технічною, командою пошуковим роботам, як часто потрібно відвідувати ваш сайт. Точніше, директива Crawl-delay вказує мінімальний перерва між відвідуваннями вашого сайту роботами (краулер пошукових систем). Навіщо вказувати це правило? Якщо роботи заходять до вас дуже часто, а нова інформація на сайті з'являється набагато рідше, то з часом пошукові системи звикнуть до рідкісного зміни інформації на вашому сайті і будуть відвідувати вас значно рідше, ніж хотілося б вам. Це пошуковий аргумент на користь використання директиви «Crawl-delay». Тепер технічний аргумент. Занадто часте відвідування вашого сайту роботами створює додаткове навантаження на сервер, яка вам зовсім не потрібна. Значним директиви краще вказувати ціле число, але зараз деякі роботи навчилися читати і дробові числа. Вказується час в секундах, наприклад:

User-agent: Yandex
Crawl-delay: 5.5

Директива Clean-param

Необов'язкова директива «Clean-param» вказує пошуковим роботам параметри адрес сайту, які не потрібно індексувати і слід сприймати, як однакові URL. Наприклад, у вас одні й ті ж сторінки виводяться за різними адресами, що відрізняється одним або декількома параметрами:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php? folder = 1 & page = 1

Пошукові роботи будуть сканувати всі подібні сторінки і помітять, що сторінки однакові, містять один і той же контент. По-перше, це створить плутанину в структурі сайту при індексації. По-друге, додаткове навантаження на сервер зросте. По-третє, швидкість сканування помітно впаде. Щоб уникнути цих неприємностей і використовується директива «Clean-param». Синтаксис наступний:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [Шлях]

Директиву «Clean-param», як і «Host» читають не всі пошукові системи. Але Яндекс її розуміє.

Помилки, які часто зустрічаються в robots.txt

Файл robots.txt знаходиться не в корені сайту

Файл robots. txt повинен розміщуватися в корені сайту, тільки в кореневій директорії. Всі інші файли з таким же ім'ям, але знаходяться в інших папках (директоріях) ігноруються пошуковими системами.

Помилка в імені файлу robots.txt

Файл пишеться маленькими літерами (нижній регістр) і повинен називатися robots.txt. Всі інші варіанти вважаються помилковими і пошукові стсеми будуть вам повідомляти про відсутність файлу. Часті помилки виглядають так:

ROBOTS.txt
Robots.txt
robot.txt

Використання неприпустимих символів в robot.txt

Файл robots.txt повинен бути в кодуванні ANSI і містити тільки латиницю. Написання директив і їх значень будь-якими іншими національними символами неприпустимо, за винятком вмісту коментарів.

Помилки синтаксису robots.txt

Намагайтеся строго дотримуватися правил синтаксису в файлі robots.txt. Синтаксичні помилки можуть привести до ігнорування вмісту всього файлу пошуковими системами.

Перерахування декількох роботів одним рядком в директиві User-agent

Помилка, часто допускається початківцями WEB-майстрами, скоріше через власну лінь, не розбивати файл robots.txt на секції, а об'єднувати команди для декількох пошукових систем в одній секції, наприклад:

User-agent: Yandex, Googlebot, Bing

Для кожної пошукової системи необхідно створювати свою окрему секцію, з урахуванням тих директив, які читає ця пошукова система. Винятком, в даному випадку, є єдина секція для всіх пошукових систем:

User-agent з порожнім значенням

Директива User-agent не може мати пусте значення. Порожніми можуть бути тільки «Allow» і «Disallow» і то з урахуванням того, що змінюють своє значення. Вказівка директиви User-agent з порожнім значенням є грубою помилкою.

Кількох значень в директиві Disallow

Рідше зустрічається помилка, але, тим не менш, періодично її можна бачити на сайтах, це вказівка декількох значень в директивах Allow і Disallow, наприклад:

Disallow: / folder1 / folder2 / folder3

Disallow: / folder1
Disallow: / folder2
Disallow: / folder3

Недотримання пріоритетів директив в robots.txt

Ця помилка була описана вище, але для закріплення матеріалу повторимося. Раніше пріоритет визначався порядком вказівки директив. На сьогоднішній день правила змінилися, пріоритет уточнюється по довжині рядка. Якщо у файлі будуть присутні дві взаємовиключні директиви, Allow і Disallow з однаковим вмістом, то пріоритет буде мати Allow.

Пошукові системи і robots.txt

Директиви в файлі robots.txt носять рекомендаційний характер для пошукових систем. Це означає, що правила прочитання можуть періодично змінюватися або доповнюватися. Так само пам'ятайте, що кожна пошукова система по-своєму обробляє директиви файлу. І не всі директиви кожна з пошукових систем читає. Наприклад, директиву «Host» сьогодні читає тільки Яндекс. При цьому Яндекс не гарантує, що ім'я домену вказане, як головне дзеркало в директиві Host обов'язково буде призначено головним, але стверджує, що пріоритет зазначеному імені в директиві буде віддаватися.

Якщо у вас невеликий набір правил, то можна створити єдину секцію для всіх роботів. В іншому випадку, не лінуйтеся, створіть окремі секції для кожної цікавить вас пошукової системи. Особливо це відноситься до заборонам, якщо ви не хочете, щоб якісь певні сторінки потрапили в пошук.

Послідовно заповнюйте всі необхідні поля. У міру ваших вказівок, Ви будете бачити наповнення вашого Robots.txt директивами. Нижче докладно описані всі директиви файлу Robots.txt.

помітьте, скопіюйтеі вставте текст в текстовий редактор. Збережіть файл як "robots.txt" в кореневій директорії вашого сайту.

Опис формату файлу robots.txt

Файл robots.txt складається з записів, кожна з яких складається з двох полів: рядки з назвою клієнтської програми (user-agent), і однієї або декількох рядків, що починаються з директиви Disallow:

Директива ":" значення

Robots.txt повинен створюватися в текстовому форматі Unix. Більшість хороших текстових редакторів вже вміють перетворювати символи перекладу рядка Windows в Unix. Або ваш FTP-клієнт повинен вміти це робити. Для редагування не намагайтеся користуватися HTML-редактором, особливо таким, який не має текстового режиму відображення коду.

Директива User-agent:

Для Рамблера: User-agent: StackRambler Для Яндекса: User-agent: Yandex Для Гугла: User-Agent: googlebot

Ви можете створити інструкцію для всіх роботів:

User-agent: *

Директива Disallow:

Друга частина запису складається з рядків Disallow. Ці рядки - директиви (вказівки, команди) для даного робота. У кожній групі, що вводиться рядком User-agent, повинна бути хоча б одна інструкція Disallow. Кількість інструкцій Disallow НЕ огранічено.Оні повідомляють роботу які файли і / або каталоги роботу недозволено індексувати. Ви можете заборонити індексацію файлу або каталогу.

Наступна директива забороняє індексацію каталогу / cgi-bin /:

Disallow: / cgi-bin / Зверніть увагу на / в кінці назви папки! Щоб забороняти відвідування саме каталогу "/ dir", інструкція повинна мати вигляд: "Disallow: / dir /". А рядок "Disallow: / dir" забороняє відвідування всіх сторінок сервера, повне ім'я яких (від кореня сервера) починається з "/ dir". Наприклад: "/dir.html", "/dir/index.html", "/directory.html".

Записана в такий спосіб директива забороняє індексацію файлу index.htm знаходиться в корені:

Disallow: /index.htm

директиву Allowрозуміє тільки Яндекс.

User-agent: Yandex Allow: / cgi-bin Disallow: / # забороняє завантажувати все, крім сторінок починаються з "/ cgi-bin" Для інших пошукових систем вам доведеться перераховувати всі закриті документи. Продумайте структуру сайту, щоб закриті для індексування документи були зібрані по можливості в одному місці.

Якщо директива Disallow буде порожній, це означає, що робот може індексувати ВСЕ файли. Як мінімум одна директива Disallow має бути присутня для кожного поля User-agent, щоб robots.txt вважався вірним. Повністю порожній robots.txt означає те ж саме, як якщо б його не було взагалі.

Робот Рамблера розуміє * як будь-який символ, тому інструкція Disallow: * означає заборону індексації всього сайту.

Директиви Allow, Disallow без параметрів. Відсутність параметрів у директив Allow, Disallow трактується наступним чином: User-agent: Yandex Disallow: # теж що і Allow: / User-agent: Yandex Allow: # теж що і Disallow: /

Використання спецсимволов "*" і "$".
При вказівці шляхів директив Allow-Disallow можна використовувати спецсимволи "*" і "$", задаючи, таким чином, певні регулярні вирази. Спецсимвол "*" означає будь-яку (в тому числі порожню) послідовність символів. приклади:

User-agent: Yandex Disallow: /cgi-bin/*.aspx # забороняє "/cgi-bin/example.aspx" і "/cgi-bin/private/test.aspx" Disallow: / * private # забороняє не тільки " / private ", але і" / cgi-bin / private " Спецсимвол "$".
За замовчуванням до кінця кожного правила, описаного в robots.txt, приписується "*", наприклад: User-agent: Yandex Disallow: / cgi-bin * # блокує доступ до сторінок починається з "/ cgi-bin" Disallow: / cgi- bin # те ж саме щоб скасувати "*" на кінці правила, можна використовувати спецсимвол "$", наприклад: User-agent: Yandex Disallow: / example $ # забороняє "/ example", але не забороняє "/example.html" User -agent: Yandex Disallow: / example # забороняє і "/ example", і "/example.html" User-agent: Yandex Disallow: / example $ # забороняє тільки "/ example" Disallow: / example * $ # так само, як "Disallow: / example" забороняє і /example.html і / example

Директива Host.

Якщо ваш сайт має дзеркала, спеціальний робот дзеркальник визначить їх і сформує групу дзеркал вашого сайту. У пошуку братиме участь тільки головне дзеркало. Ви можете вказати його за допомогою robots.txt, використовуючи директиву "Host", визначивши як її параметр ім'я головного дзеркала. Директива "Host" не гарантує вибір зазначеного головного дзеркала, проте, алгоритм при прийнятті рішення враховує її з високим пріоритетом. Приклад: # Якщо www.glavnoye-zerkalo.ru головне дзеркало сайту, то robots.txt для # www.neglavnoye-zerkalo.ru виглядає так User-Agent: * Disallow: / forum Disallow: / cgi-bin Host: www.glavnoye -zerkalo.ru з метою сумісності з роботами, які не повністю дотримуються стандарту при обробці robots.txt, директиву "Host" необхідно додавати в групі, що починається з записи "User-Agent", безпосередньо після директив "Disallow" ( "Allow") . Аргументом директиви "Host" є доменне ім'я з номером порту (80 за замовчуванням), відокремленим двокрапкою. Параметр директиви Host зобов'язаний складатися з одного коректного імені хоста (тобто відповідного RFC 952 і не є IP-адресою) і допустимого номера порту. Некоректно складені рядки "Host:" ігноруються.

Приклади ігнорованих директив Host:

Host: www.myhost-.ru Host: www.-myhost.ru Host: www.myhost.ru:100000 Host: www.my_host.ru Host: .my-host.ru: 8000 Host: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: 213.180.194.129 Host: www.firsthost.ru, www.secondhost.ru # в одному рядку - один домен! Host: www.firsthost.ru www.secondhost.ru # в одному рядку - один домен !! Host: екіпаж-связь.рф # потрібно використовувати punycode

Директива Crawl-delay

Задає таймаут в секундах, з яким пошуковий робот закачує сторінки з вашого сервера (Crawl-delay).

Якщо сервер сильно навантажений і не встигає відпрацьовувати запити на закачування, скористайтеся директивою "Crawl-delay". Вона дозволяє задати пошуковому роботу мінімальний період часу (в секундах) між кінцем закачування однієї сторінки і початком закачування наступного. З метою сумісності з роботами, які не повністю дотримуються стандарту при обробці robots.txt, директиву "Crawl-delay" необхідно додавати в групі, що починається з записи "User-Agent", безпосередньо після директив "Disallow" ( "Allow").

Пошуковий робот Яндекса підтримує дробові значення Crawl-Delay, наприклад, 0.5. Це не гарантує, що пошуковий робот буде заходити на ваш сайт кожні півсекунди, але дає роботу більше свободи і дозволяє прискорити обхід сайту.

User-agent: Yandex Crawl-delay: 2 # задає таймаут в 2 секунди User-agent: * Disallow: / search Crawl-delay: 4.5 # задає таймаут в 4.5 секунди

Директива Clean-param

Директива для виключення параметрів з адресного рядка. тобто запити містять такий параметр і не містять - будуть вважатися ідентичними.

Порожні рядки і коментарі

Порожні рядки допускаються між групами інструкцій, вводяться User-agent.

Інструкція Disallow враховується, тільки якщо вона підпорядкована будь-якої рядку User-agent - тобто якщо вище неї є рядок User-agent.

Будь-який текст від знака решітки "#" до кінця рядка вважається коментарем і ігнорується.

приклад:

Наступний простий файл robots.txtзабороняє індексацію всіх сторінок сайту всім роботам, крім робота Рамблера, якому, навпаки, дозволена індексація всіх сторінок сайту.

# Інструкції для всіх роботів User-agent: * Disallow: / # Інструкції для робота Рамблера User-agent: StackRambler Disallow:

Поширені помилки:

Перевернутий синтаксис: User-agent: / Disallow: StackRambler А повинно бути так: User-agent: StackRambler Disallow: / Кілька директив Disallow в одному рядку: Disallow: / css / / cgi-bin / / images / Правильно так: Disallow: / css / Disallow: / cgi-bin / Disallow: / images /

Примітки:

Неприпустимо наявність порожніх перекладів рядка між директивами "User-agent" і "Disallow" ( "Allow"), а також між самими "Disallow" ( "Allow") директивами.
Відповідно до стандарту перед кожною директивою "User-agent" рекомендується вставляти порожній новий рядок.

Всім привіт! Сьогодні я б хотів Вам розповісти про файл robots.txt. Так, про нього дуже багато чого написано в інтернеті, але, якщо чесно, я сам дуже довгий час не міг зрозуміти, як же створити правильний robots.txt. У підсумку я зробив один і він стоїть на всіх моїх блогах. Проблем з я не помічаю, robots.txt працює просто чудово.

Robots.txt для WordPress

А навіщо, власне кажучи, потрібен robots.txt? Відповідь все той же -. Тобто складання robots.txt - це одне з частин пошукової оптимізації сайту (до речі, дуже скоро буде урок, який буде присвячений всієї внутрішньої оптимізації сайту на WordPress. Тому не забудьте підписатися на RSS, щоб не пропустити цікаві матеріали.).

Одна з функцій даного файлу - заборона індексаціїнепотрібних сторінок сайту. Також в ньому задається адреса і прописується головне дзеркало сайту(Сайт з www або без www).

Примітка: для пошукових систем один і той же сайт з www і без www зовсім абсолютно різні сайти. Але, зрозумівши, що вміст цих сайтів однакове, пошуковики "склеюють" їх. Тому важливо прописати головне дзеркало сайту в robots.txt. Щоб дізнатися, яка головна (з www або без www), просто наберіть адресу свого сайту в браузері, наприклад, з www, якщо Вас автоматично перекине на той же сайт без www, значить головне дзеркало Вашого сайту без www. Сподіваюся правильно пояснив.

Так ось, цей заповітний, по-моєму, правильний robots.txt для WordPressВи можете побачити нижче.

Правильний Robots.txt для WordPress

User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / *? *
Disallow: / tag

User-agent: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / *? *
Disallow: / tag
Host: сайт
.gz
Sitemap: https: //сайт/sitemap.xml

Все що дано вище, Вам потрібно скопіювати в текстовий документ з расшіреніем.txt, тобто, щоб назва файлу було robots.txt. Даний текстовий документ Ви можете створити, наприклад, за допомогою програми. Тільки, не забудьте, будь ласка, змінити в останніх трьох рядкахадреса на адресу свого сайту. Файл robots.txt повинен розташовуватися в корені блогу, тобто в тій же папці, де знаходяться папки wp-content, wp-admin і ін..

Ті, кому ж лінь створювати даний текстовий файл, можете просто завантажити robots.txt і також там підкоригувати 3 рядки.

Хочу зазначити, що в технічними частинами, про які йтиметься нижче, себе сильно завантажувати не потрібно. Наводжу їх для "знань", так би мовити загального кругозору, щоб знали, що і навіщо потрібно.

Отже, рядок:

User-agent

задає правила для якогось пошуковика: наприклад "*" (зірочкою) відзначено, що правила для всіх пошукових систем, а то, що нижче

User-agent: Yandex

означає, що дані правила тільки для Яндекса.

Disallow
Тут же Ви "засовує" розділи, які НЕ потрібно індексувати пошуковим системам. Наприклад, на сторінці https: // сайт / tag / seo у мене йде дубль статей (повторення) зі звичайними статтями, а дублювання сторінок негативно позначається на пошуковому просуванні, тому, вкрай бажано, дані сектори потрібно закрити від індексації, що ми і робимо за допомогою цього правила:

Disallow: / tag

Так ось, в тому robots.txt, що він дав вище, від індексації закриті майже всі непотрібні розділи сайту на WordPress, тобто просто залиште все як є.

Host

Тут ми задаємо головне дзеркало сайту, про який я розповідав трохи вище.

Sitemap

В останніх двох рядках ми задаємо адресу до двох карт сайту, створені за допомогою.

Можливі проблеми

А ось через цю рядки в robots.txt, у мене перестали індексуватися пости сайту:

Disallow: / *? *

Як бачите, ця сама рядок в robots.txt забороняє індексування статей, що природно нам анітрохи не потрібно. Щоб виправити це, просто потрібно видалити ці 2 рядки (в правилах для всіх пошукових систем і для Яндекса) і остаточний правильний robots.txt для WordPress сайту без ЧПУ буде виглядати наступним чином:

User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / tag

User-agent: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / tag
Host: сайт
Sitemap: https: //сайт/sitemap.xml

Щоб перевірити, чи правильно ми склали файл robots.txt я рекомендую Вам скористатися сервісом Яндекс Вебмайстер (як реєструватися в даному сервісі я розповідав).

Заходимо в розділ Налаштування індексування -> Аналіз robots.txt:

Вже там натискаєте на кнопку "Завантажити robots.txt з сайту", а потім натискаєте на кнопку "Перевірити":

Якщо Ви побачите приблизно наступне повідомлення, значить у Вас правильний robots.txt для Яндекса:

Далеко не всі сучасні вебмастери вміють працювати з HTML-кодом. Багато хто навіть не знають, як повинні виглядати функції, прописані в ключових файлах CMS. Нутрощі вашого ресурсу, такі як файл robots.txt, є інтелектуальною власністю, в якій власник повинен бути, як риба в воді. Тонка настройка сайту дозволяє підвищити його пошукові рейтинги, вивести в топ і успішно збирати трафік.

Файл robots.txt - один з основних елементів підгонки ресурсу під вимоги пошукових систем. Він містить технічну інформацію і обмежує доступ до ряду сторінок пошуковим роботам. Адже далеко не кожна написана сторінка повинна неодмінно виявитися у видачі. Раніше для створення файлу robots txt був необхідний доступ через FTP. Равітія CMS відкрило можливість отримати до нього доступ прямо через панель управління.

Для чого потрібен файл robots.txt

Цей файл містить ряд рекомендацій, адресованих пошуковим роботам. Він обмежує їх доступ до деяких частин сайту. Через розміщення цього файлу в кореневому каталозі, боти ніяк не зможуть його пропустити. В результаті, потрапляючи на ваш ресурс, вони спочатку читають правила його обробки, а вже тільки після цього починають перевірку.

Таким чином, файл вказує пошуковим роботам, які директорії домену дозволено для індексування, і які цього процесу не підлягають.

З огляду на, що на процес ранжирування наявність файлу безпосередньо не впливає, багато сайтів не містять robots.txt. Але шлях повного доступу не можна вважати техіческі правильним. Розглянемо переваги robots.txt, які він дає ресурсу.

Можна заборонити індексування ресурсу цілком або частково, обмежити коло пошукових роботів, які будуть мати право на проведення індексування. Наказуючи robots.txt заборонити все, ви зможете повністю ізолювати ресурс на час ремонту або реконструкції.

До речі, розробники Гугл неодноразово нагадували веб-майстрам, що файл robots.txt не повинен перевищувати за розмірами 500 Кб. Це неодмінно призведе до помилок при індексації. Якщо створювати файл вручну, то «досягти» такого розміру, звичайно, нереально. Але ось деякі CMS, автоматично формують зміст robots.txt, можуть значно його перевантажити.

Просте створення файлу для будь-якого пошукача

Якщо ви боїтеся займатися тонким налаштуванням самостійно, її можна провести автоматично. Існують конструктори, котрі збирають подібні файли без вашої участі. Вони підходять людям, які тільки починають своє становлення як вебмайстрів.

Як видно на зображенні, настройка конструктора починається з введення адреси сайту. Далі ви вибираєте пошукові системи, з якими плануєте працювати. Якщо вам не важлива видача тієї чи іншої пошукової системи, то немає необхідності створювати під неї настройки. Тепер переходите до вказівкою папок і файлів, доступ до яких плануєте обмежити. В даному прикладі ви зможете вказати адресу карти і дзеркала вашого ресурсу.

Robots.txt generator буде заповнювати форму в міру наповнення конструктора. Все, що в подальшому від вас буде потрібно - це скопіювати отриманий текст в txt-файл. Не забудьте привласнити йому назву robots.

Як перевірити ефективність файлу robots.txt

Для того, щоб проаналізувати дію файлу в Яндексі, слід перейти на відповідну сторінку в розділі Яндекс.Вебмайстер. У діалоговому вікні вкажіть ім'я сайту і натисніть кнопку «завантажити».

Система проаналізує файл robots.txt перевірка покаже, чи буде пошуковий робот обходити сторінки, заборонені до індексації. Якщо виникли проблеми, директиви можна відредагувати і перевірити прямо в діалоговому вікні. Правда після цього вам доведеться скопіювати відредагований текст і вставити в свій файл robots.txt в кореневому каталозі.

Аналогічну послугу надає сервіс «Інструменти для веб-майстрів» від пошуковика Google.

Створення robots.txt для WordPress, Joomla і Ucoz

Різні CMS, які отримали широку популярність на просторах Рунета, пропонують користувачам свої версії файлів robots.txt. Деякі з них не мають таких файлів зовсім. Найчастіше ці файли або занадто універсальні і не враховують особливостей ресурсу користувача, або мають ряд суттєвих недоліків.

Досвідчений фахівець може вручну виправити становище (при нестачі знань так краще не робити). Якщо ви боїтеся копатися в нутрощах сайту, скористайтеся послугами колег. Подібні маніпуляції, при знанні справи, займають всього пару хвилин часу. Наприклад, robots.txt може виглядати таким чином:

В останніх двох рядках, як нескладно здогадатися, потрібно прописати дані власного ресурсу.

висновок

Є ряд навичок, обов'язкових для освоєння будь-яким вебмайстром. І самостійна настройка і ведення сайту - один з них. Початківці сайтобудівники можуть таких дров наламати під час налагодження ресурсу, що потім не разгребёшь. Якщо ви не хочете втрачати потенційну аудиторію і позиції у видачі через структури сайту, підходите до процесу її налаштування грунтовно і відповідально.