Всё о robots.txt

Нужен ли robots.txt вашему сайту; как создать и правильно настроить robots.txt; где его разместить; как проверить на ошибки; какие есть нюансы в использовании файла.

роботс тхт

Что такое robots.txt и для чего он предназначен

Robots.txt – это текстовый файл, созданный для поисковых роботов. С помощью него вебмастера ограничивают доступ к определённым страницам, каталогам или файлам на сайте; запрещают переход по конкретным ссылкам; указывают «правильное» зеркало; время, которое нужно выдерживать роботу между загрузкой страниц, скачиванием документов и т. п.

файл robots txt

Инструкции можно прописывать как для всех роботов, так и для конкретных. Однако нужно понимать, что они носят рекомендательный характер и не являются железным правилом. Например, если вы скроете от индексации определённую страницу в robots.txt, она всё равно останется в поисковой выдаче, в случае если на неё ведут линки с других сайтов.

Какую информацию обычно запрещают для индексирования в robots.txt? Это могут быть различные скрипты, служебные файлы, дублированные страницы или те, которые не несут полезных сведений (календарь, страницы пагинации, сортировки, страница с партнёрскими ссылками), а также фото и видео материалы, профили пользователей и другую информацию, которую вы не хотите видеть в выдаче.

Файл robots.txt создавать не обязательно, но желательно. Лучше просто оставить его пустым, в случае если вы не видите в нём необходимости. Располагается он в корневом каталоге, то есть должен открываться по адресу: site_name.ua/robots.txt (таким образом вы можете посмотреть примеры файла robots.txt любого сайта). Если сайт имеет поддомены (например, forum.site_name.ua или blog.site_name.ua), то необходимо разместить файл также в каждом из них.

Как создать robots.txt

Поскольку технически это обычный текстовый файл, то создать его можно в любом редакторе («Блокнот», «Notepad++» и пр.). Сложности могут возникнуть в случае незнания синтаксиса. Да и если веб-ресурс с большой и сложной структурой, придётся повозиться. Поэтому существует множество сервисов для автоматизированного создания robots.txt – онлайн и бесплатно. Для проверки результата своих стараний можно воспользоваться соответствующими инструментами в панелях вебмастера Гугл и Яндекс.

Синтаксис robots.txt

  • Название файла пишем с маленькой буквы и без импровизаций – robots.txt и никак иначе.
  • Обязательными являются 2 директивы:
    ♦ User-agent (показывает, какому боту адресована инструкция);
    ♦ Disallow (показывает, страницу или директорию, запрещённую к индексации).
  • После каждого «User-agent» должен идти минимум один Disallow.
  • Перед каждым новым «User-agent» следует вставлять пустую строку.
  • Комментарии не следует писать на одной строке с инструкциями — лучше на следующей.

Например, запретим роботу Яндекса, отвечающего за индексацию картинок, индексировать содержимое папки images.

YandexImages – имя робота
images – название директории

Часто в robots.txt используют разрешающую директиву Allow. Это удобно, если нужно открыть для индексации один или несколько файлов/папок в запрещающей директории.

Мы запретили к индексации всё содержимое директории info, но разрешили индексацию папки fox.

Спецсимволы:

#    — комментирование
*    — размещённый после «User-agent:» он означает, что наши рекомендации касаются абсолютно всех роботов:

— указывает на любую последовательность символов:

Здесь мы блокируем все файлы с расширением png в директории «content»; также блокируем папку /old и в придачу к ней /content /old.

/     — после «Disallow:» означает закрытие от индексации всего сайта.

С этим символом нужно быть осторожными. Например, если вы напишете:

Это будет значить, что вы блокируете содержимое папки seo. Но если вы не поставите слеш в конце:

То вы скроете от индексации абсолютно ВСЕ ссылки на сайте, которые содержат слово «seo». Например, файл /seo- soft.html или папку /seo-tool/.

Пустая строка после «Disallow:» означает, что мы разрешаем индексировать весь сайт.

Полный перечень спецсимволов и примеры их использования есть в справке Яндекса  и Гугла.

Существует ещё одна часто используемая директива:

«Host» — указывает основное зеркало сайта, и воспринимается только поисковым роботом Яндекса.

Мета-тег «robots» как альтернатива robots.txt

Иногда есть смысл пользоваться специальным мета-тегом:

В этом примере робот не будет индексировать контент и переходить по ссылкам. Неудобство в том, что мета-тег нужно прописывать на каждой странице, которую мы хотим скрыть.

И всё же этот способ стоит взять на вооружение, т. к. поисковики не жалуют большое количество блокированных страниц — ваш ресурс должен быть максимально полезным для пользователя, а получается, что у вас там куча хлама. К тому же роботы не всегда корректно интерпретируют инструкции в robots.txt. Поэтому проверяйте важные страницы с помощью оператора «site», дабы убедится в том, что они есть в выдаче.

Вбиваем в строку поиска адрес интересующей нас страницы:

и смотрим на результаты.

Вывод

Умелое применение robots.txt может как помочь повысить позиции сайта (скрывая дубли и бесполезные с точки зрения поисковиков сведения), так и навредить в случае неправильной настройки файла (закрывая от индексации важный материал). Вебмастера советуют не мудрить и использовать максимально простой синтаксис в файле, если вы новичок в этом деле, т. к. в спецсимволах легко запутаться.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *