Что такое robots.txt
Файл robots.txt представляет собой текстовый файл, размещается в корневом разделе сайта (т.е. имеет путь относительно имени сайта /robots.txt) и предназначен для написания инструкций роботов для поисковых машин.
Основной целью создания файла robots.txt является запрещение индексации одной или нескольких страниц сайта или каких-либо разделов на сайте. Также файл robots.txt может использоваться для зеркалирования - указания основного домена сайта, если доменов несколько и нужного вам варианта - с www или без (директива host, работает только для Яндекса).
Правила написания и синтаксис файла robots.txt
Файл robots.txt — это текстовый файл, представляющий собой набор записей, разделенных одной или более пустых строк. Параметры и их значения в файле разделяются двоеточием.
Стандартный вариант файла:
User-agent: Yandex Host: site.ru User-agent: * Disallow: /search Sitemap: http://site.ru/sitemap.xml
Таким образом, запись Disallow: /search будет означать запрет доступа поисковых систем к разделу site.ru/search и всех разделов внутри него. Запись Disallow: / — запрещает индексировать весь сайт целиком.
Если запреты к индексации разделов или страниц сайта поисковыми машинами не планируется вообще, допускается создание пустого файла robots.txt.
User-agent — идентификатор робота, которому предназначена директива. Если звездочка - всем роботам.
Sitemap — адрес, где расположена специальная XML-карта сайта со списком всех разделов и материалов сайта. У всех пользователей Сайт-Менеджера она формируется автоматически. Подробнее XML-карта сайта описана в разделе Помощи.
Примеры использования файла robots.txt
Для запрета индексации всего сайта применяется следующая запись:
User-agent: * Disallow: /
Для запрета доступа какой-либо одной из поисковых машин к каталогу /about/ записи в файле robots.txt будут выглядеть несколько иначе:
User-agent: googlebot Disallow: /about/
Кроме того, при помощи нестандартных директив Crawl-delay и Allow можно соответственно установить временной интервал, по истечении которого робот должен выполнить загрузку страниц, а также разрешить доступ поисковых машин к части ресурса, определенной веб-мастером.
Более сложные конструкции и примеры использования robots.txt мы рассмотрим в будущих статьях.
Видео про robots.txt от Яндекса