Что такое robots.txt

16:00

Файл robots.txt представляет собой текстовый файл, размещается в корневом разделе сайта (т.е. имеет путь относительно имени сайта /robots.txt) и предназначен для написания инструкций роботов для поисковых машин.

Основной целью создания файла robots.txt является запрещение индексации одной или нескольких страниц сайта или каких-либо разделов на сайте. Также файл robots.txt может использоваться для зеркалирования - указания основного домена сайта, если доменов несколько и нужного вам варианта - с www или без (директива host, работает только для Яндекса).

Правила написания и синтаксис файла robots.txt

Файл robots.txt — это текстовый файл, представляющий собой набор записей, разделенных одной или более пустых строк. Параметры и их значения в файле разделяются двоеточием.

Стандартный вариант файла:

User-agent: Yandex
Host: site.ru

User-agent: *
Disallow: /search
Sitemap: http://site.ru/sitemap.xml

Таким образом, запись Disallow: /search будет означать запрет доступа поисковых систем к разделу site.ru/search и всех разделов внутри него. Запись Disallow: / — запрещает индексировать весь сайт целиком.

Если запреты к индексации разделов или страниц сайта поисковыми машинами не планируется вообще, допускается создание пустого файла robots.txt.

User-agent — идентификатор робота, которому предназначена директива. Если звездочка - всем роботам.

Sitemap — адрес, где расположена специальная XML-карта сайта со списком всех разделов и материалов сайта. У всех пользователей Сайт-Менеджера она формируется автоматически. Подробнее XML-карта сайта описана в разделе Помощи.

Примеры использования файла robots.txt

Для запрета индексации всего сайта применяется следующая запись:

User-agent: *
Disallow: /

Для запрета доступа какой-либо одной из поисковых машин к каталогу /about/ записи в файле robots.txt будут выглядеть несколько иначе:

User-agent: googlebot
Disallow: /about/

Кроме того, при помощи нестандартных директив Crawl-delay и Allow можно соответственно установить временной интервал, по истечении которого робот должен выполнить загрузку страниц, а также разрешить доступ поисковых машин к части ресурса, определенной веб-мастером. 

Более сложные конструкции и примеры использования robots.txt мы рассмотрим в будущих статьях.

Видео про robots.txt от Яндекса