Веб-краулеры Meta

Meta использует веб-краулеры (программное обеспечение, которое получает контент с сайтов или веб-приложений) в различных целях. На этой странице перечислены строки пользовательских агентов, которые идентифицируют самые популярные веб-краулеры Meta, и для чего эти краулеры используются. Кроме того, здесь имеются инструкции по настройке файла robots.txt таким образом, чтобы наши краулеры правильно взаимодействовали с вашим сайтом.

FacebookExternalHit

Основная задача FacebookExternalHit — просматривать содержимое приложений или сайтов, которыми поделились в одном из приложений семейства Meta, таких как Facebook, Instagram и Messenger. Ссылка может передаваться путем копирования и вставки или с помощью социального плагина Facebook. Этот краулер собирает, кэширует и показывает информацию о сайте или приложении, в том числе название, описание и миниатюрное изображение.

Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Обратите внимание: краулер FacebookExternalHit может обойти файл robots.txt при выполнении проверок безопасности или целостности, например при проверке на наличие вредоносных программ или вредоносного контента.

Требования краулера

  • Сервер должен использовать кодировки gzip и deflate.
  • Все свойства Open Graph должны быть перечислены до первого 1 МБ сайта или приложения, иначе они не будут учтены.
  • Скрапинг содержимого должен выполняться за несколько секунд, иначе Facebook не сможет отобразить контент.
  • Ваше приложение или сайт должны либо генерировать и возвращать ответ со всеми необходимыми свойствами согласно байтам, указанным в заголовке Range запроса краулера, либо полностью игнорировать заголовок Range.
  • Добавьте в список доступа строки запросов пользовательских агентов или IP-адреса (более безопасный вариант), используемые краулером.

Устранение неполадок

Если во время скрапинга контент сайта или приложения недоступен, скрапинг можно повторить позже. Для этого передайте URL с помощью отладчика репостов или воспользуйтесь Sharing API.

Чтобы эмулировать запрос краулера, используйте этот код:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

Краулер Meta-ExternalAgent просматривает веб-контент с целью обучения моделей искусственного интеллекта и улучшения продуктов путем прямого индексирования контента.

Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Мы будем развертывать этот краулер постепенно в течение следующих нескольких недель и планируем завершить развертывание к 31 октября 2024 г.

Meta-ExternalFetcher

Краулер Meta-ExternalFetcher по инициативе пользователя получает отдельные ссылки для поддержки определенных функций продукта. Поскольку получение инициируется пользователем, этот краулер может обходить правила файла robots.txt.

Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

Файл robots.txt

Настроив файл robots.txt на своем сайте, вы можете указать веб-краулерам Meta предпочтительный порядок взаимодействия с вашим сайтом. Чтобы заблокировать эти краулеры, добавьте для них директиву disallow в файл robots.txt. Краулер Meta-ExternalFetcher может обходить файл robots.txt, поскольку его работу инициирует пользователь. Кроме того, краулер FacebookExternalHit может обходить файл robots.txt при проверке безопасности или целостности.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP-адреса краулеров

Если исходный IP-адрес краулера находится в списке, который генерируется следующей командой, это краулер Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Учитывайте, что эти IP-адреса часто меняются. Подробнее см. на нашей веб-странице пиринга или в связанном скачиваемом файле (формат CSV).

Пример ответа

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Связь с нами

Если у вас есть вопросы или сомнения, напишите нам на адрес webmasters@meta.com (веб-мастера Meta).