Файл robots.txt — это текстовый файл, который размещается в корневом каталоге веб-сайта. Файл содержит инструкции для поисковых роботов о том какие разделы сайта закрыты для сканирования и какие можно сканировать и индексировать.
Так robots.txt позволяет закрыть от сканирования страницы, содержащие служебную или конфиденциальную информацию. Ограничение сканирования ненужных страниц через robots.txt помогает снизить нагрузку на сервер и ускорить его работу.
Правильное его использование robots.txt поможет улучшить SEO и оптимизировать работу сайта.
Стандарт исключения для роботов — метод ограничения действий поисковых роботов на сайте, который реализуется через файл robots.txt. Стандарт не является официальным и его применение носит добровольный характер.
Файл robots.txt, сформированный в соответствии со стандартом, представляет собой обычный текстовый файл, который размещается в корне сайта и имеет адрес:
site.name/robots.txt
Каждая запись в файле содержит непустые строки вида:
<поле>:<необязательный пробел><значение><необязательный пробел>
поле — это либо User-agent, либо Disallow.
Директива User-agent:
User-agent: — указывает робота, для которого предназначены инструкции.
Пример:
User-agent:Yandex
User-agent:Google
или
User-agent:* — для всех. Такая запись должна быть одна в файле
Директива Disallow:
Disallow: — указывает ограничения для робота.
Пример. Запретить доступ к страницам, начинающимся с /contact: /contact.html, /contact.php, /contact/index.html, /contact/chef:
Disallow:/contact
Запретить доступ строго для /contact/:
Disallow:/contact/
Запретить доступ ко всему сайту:
Disallow: /
Нестандартные директивы
Allow: — разрешает доступ к ресурсу. Поддерживается всеми основными поисковиками.
Пример. Разрешен доступ к файлу petr.html, а доступ ко всей остальной информации в каталоге /contact запрещен.
Allow: /contact/petr.html
Disallow: /contact/
Sitemap: указывает расположение файлов Sitemaps, которые могут показать, что именно нужно проиндексировать поисковому роботу.
Пример:
Sitemap: http://example.com/sitemap.xml
Адрес указывается вместе с протоколом
Применение спецсимволов
В директивах Disallow и Allow допускается использование специальных символов '*' и '$'.
Спецсимвол '*' означает любую (в т.ч. пустую) последовательность символов.
Пример:
User-agent: *
Disallow: /*personal # заблокированы '/personal' и '/scripts/personal'
Disallow: /personal* # равносилен "Disallow: /personal"
Спецсимвол '$' отменяет дописанный в конец урла символ '*', точно указывая на конец строки.
Пример:
User-agent: *
Disallow: /home$
заблокирован 'home', но открыт '/home_main.php