Индексирование сайтов роботами Яндекса

Индексирование сайтов роботами Яндекса

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

Какие бывают индексирующие роботы

В Яндексе есть несколько видов роботов, которые выполняют разные функции. Например, есть робот, который индексирует rss-ленту для поиска по блогам. Или робот, который индексирует только картинки. Самый важный — основной индексирующий робот, функция которого — поиск и индексирование информации для формирования базы основного поиска.

В помощь основному есть быстрый робот — он предназначен для оперативного индексирования свежей, актуальной на данный момент информации. Если среди проиндексированных страниц своего сайта вы видите две копии какого-либо документа — скорее всего это означает, что помимо основного робота документ также был проиндексирован и быстрым роботом.

Как проверить, что робот принадлежит Яндексу

Некоторые роботы могут маскироваться под роботов Яндекса путем указания соответствующего User Agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

  • Для интересующего user-agent определите IP адрес по логам вашего сервера. Все роботы Яндекса представляются с помощью заданных User agent.
  • По полученному IP адресу определите доменное имя хоста, используя обратный DNS запрос.
  • После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на ‘yandex.ru’, ‘yandex.net’ или ‘yandex.com’. Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
  • Напоследок удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS запрос (forward DNS lookup), чтобы получить IP адрес, соответствующий имени хоста. Он должен совпадать с IP адресом, использованным при обратном DNS запросе. Если IP адреса не совпадают, это означает, что полученное имя хоста поддельное.

Роботы Яндекса в логах сервера

У Яндекса есть много роботов, которые представляются по-разному:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) — основной индексирующий робот.
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) — индексирующий робот.
  • Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) — скачивает страницы для проверки их доступности пользователям..
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) — робот, определяющий страницы с версткой, подходящей под мобильные устройства..
  • Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots — робот генерации динамических баннеров..
  • Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) — робот, делающий снимок страницы..
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) — индексаторЯндекс.Картинок.
  • Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) — индексаторЯндекс.Видео.
  • Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) — индексаторЯндекс.Видео..
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) — робот, индексирующий мультимедийные данные.
  • Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) — роботпоиска по блогам, индексирующий комментарии постов.
  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)— робот, индексирующий пиктограммы сайтов (favicons).
  • Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)— робот сервисаЯндекс.Вебмастер.
  • Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)— робот, обращающийся к странице при валидации микроразметки через форму Валидатор микроразметки.
  • Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) — робот мобильных сервисов.
  • Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) — робот Рекламной сети Яндекса.
  • Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы..
  • Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) — «простукивалка» Яндекс.Директа, проверяет корректность ссылок из объявлений перед модерацией,особым образом интерпретирует robots.txt.
  • Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) — роботЯндекс.Календаря, используется для синхронизации с другими календарями..
  • Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) — «простукивалка» быстрых ссылок, используется для проверки доступности страниц, определившихся в качестве быстрых ссылок.
  • Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) — роботЯндекс.Метрики..
  • Mozilla/5.0 (compatible; YandexNews/3.0; +http://yandex.com/bots) — роботЯндекс.Новостей;
  • Mozilla/5.0 (compatible; YandexNewslinks; +http://yandex.com/bots) — «простукивалка» Яндекс.Новостей, используется для проверки ссылок из новостных материалов.
  • Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) — «простукивалка»Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге.
  • Mozilla/5.0 (compatible; YandexAntivirus/2.0; +http://yandex.com/bots) — антивирусный робот, который проверяет страницы на наличие опасного кода.
  • Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) — роботЯндекс.Маркета.
  • Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) — робот поисковых вертикалей.
  • Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) — Робот почты для домена, используется при проверке прав на владение доменом.
  • Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) — робот, определяющий зеркала сайтов;
  • Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) — роботЯндекс.Справочника.
  • Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) — робот, который регулярно скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. Особым образом интерпретирует robots.txt.
  • Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexMedianaBot/1.0; +http://yandex.com/bots) — робот сервиса Яндекс.Медиана.

IP-адресов, с которых «приходят» роботы Яндекса, тоже много, и они часто меняются. Поэтому мы не разглашаем их список и не рекомендуем использовать фильтрацию на их основе.