Поисковые роботы
При всем совершенстве алгоритмов поисковых систем не существует способа получать информацию обо всех страницах в Интернете в реальном времени. Для того чтобы сверять содержимое уже проиндексированных страниц с имеющейся базой, искать и находить новые страницы и новые сайты, необходимо постоянно перемещаться по ссылкам и анализировать контент, встречающийся на этом пути. Такие функции в схеме работы поисковиков возложены на поисковые работы - специальные программы, предназначенные для перебора страниц и их последующей индексации.
Как это работает?
В общих чертах деятельность поискового работа напоминает просмотр сайта в браузере. Таким же образом программа получает исходный код страницы, анализирует контент, после чего переходит по размещенным на ней внешним или внутренним ссылкам. Информация о конкретной странице на данном этапе сохраняется в базе данных поисковика для последующей обработки. При этом порядок движения по страницам, активность, механизмы защиты от зацикливания и другие особенности работа определяются алгоритмами поисковой системы и могут отличаться.
Посещение страницы поисковым роботом и ее индексация
Многие пользователи ошибочно сопоставляют посещение страницы поисковым роботом и ее индексирование - попадание в поисковый индекс. Действительно, на практике одно проистекает из другого, но, с другой стороны, визит робота еще не гарантирует того, что страница действительно попадет в результаты выдачи. На первом этапе сведения об определенном URL лишь отправляются в базу данных, но не выводятся в индекс.
В том случае, если алгоритм поисковика посчитает контент на странице дублированным или, например, нерелевантным запросам пользователей, страница может и не попасть в индекс, хоть и будет храниться в архиве поисковой системы. Таким же образом работа робота напрямую не влияет на ранжирование сайта по тем или иным запросам: за это отвечают другие алгоритмы, которые подключаются уже впоследствии.
Виды поисковых роботов
Как у Google, так и у Яндекс есть как основной поисковый робот (Googlebot и YandexBot соответственно), так и множество видов вспомогательных ботов. В их числе - программы, сканирующие изображения, видео, роботы-эмуляторы мобильных устройств, системы для работы с рекламой на сайтов и т.д. У Яндекса также стоит выделить так называемого "быстрого робота" или "быстроробота", который отвечает за оперативную индексацию свежих и актуальных материалов (например, новостей). Полный список роботов можно найти в помощи для вебмастеров Яндекса и справке Google.
Как распознать поискового робота?
Увидеть информацию о посещениях сайта поисковыми роботами можно в логах (журналах) сервера. Записи об их визитах выглядят следующим образом:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Как мы уже упомянули выше, у каждого поисковика есть довольно много разновидностей программ, так что в логах могут фигурировать различные модификации такой записи - например, Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) или (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html).
Бывают случаи, когда под роботов поисковых систем маскируются различных сканирующие программы, активность которых нежелательна для сайта. Отличить поисковые роботы по IP проблематично, т.к. сетевых адресов серверов Google и Яндекс множество. В то же время довольно просто определить активность поисковиков по имени хоста - yandex.com, yandex.net, yandex.ru, google.com.
Как управлять поисковыми роботами?
Основной способ взаимодействия с поисковыми роботами - это создание директив для них в файле robots.txt. С помощью специальных команд вебмастер может запретить или разрешить индексирование тех иных страниц/разделов сайта, а также оставить другие условия для работы поисковых программ.
Другой важной задачей для многих сайтов является привлечение поисковых роботов на сайт и быстрая индексация новых страниц. Сообщить поисковику о своем проекте помогут сервисы Яндекс.Вебмастер и Google Webmasters, внешние ссылки с других ресурсов, а также аналитические счетчики поисковиков Яндекс.Метрика и Google Analytics. Что касается индексирования новых страниц, то в этом вопросе будет полезной карта сайта (sitemap) и грамотная внутренняя перелинковка, которая поможет поисковому роботу быстро найти новую страницу.