Meta использует веб-краулеры (программное обеспечение, которое получает контент с сайтов или веб-приложений) в различных целях. На этой странице перечислены строки пользовательских агентов, которые идентифицируют самые популярные веб-краулеры Meta, и для чего эти краулеры используются. Кроме того, здесь имеются инструкции по настройке файла robots.txt таким образом, чтобы наши краулеры правильно взаимодействовали с вашим сайтом.
Основная задача FacebookExternalHit — просматривать содержимое приложений или сайтов, которыми поделились в одном из приложений семейства Meta, таких как Facebook, Instagram и Messenger. Ссылка может передаваться путем копирования и вставки или с помощью социального плагина Facebook. Этот краулер собирает, кэширует и показывает информацию о сайте или приложении, в том числе название, описание и миниатюрное изображение.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Обратите внимание: краулер FacebookExternalHit может обойти файл robots.txt при выполнении проверок безопасности или целостности, например при проверке на наличие вредоносных программ или вредоносного контента.
Range
запроса краулера, либо полностью игнорировать заголовок Range
.Если во время скрапинга контент сайта или приложения недоступен, скрапинг можно повторить позже. Для этого передайте URL с помощью отладчика репостов или воспользуйтесь Sharing API.
Чтобы эмулировать запрос краулера, используйте этот код:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
Краулер Meta-ExternalAgent просматривает веб-контент с целью обучения моделей искусственного интеллекта и улучшения продуктов путем прямого индексирования контента.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Мы будем развертывать этот краулер постепенно в течение следующих нескольких недель и планируем завершить развертывание к 31 октября 2024 г.
Краулер Meta-ExternalFetcher по инициативе пользователя получает отдельные ссылки для поддержки определенных функций продукта. Поскольку получение инициируется пользователем, этот краулер может обходить правила файла robots.txt.
Конкретная строка пользовательского агента, которую вы увидите в файлах журнала, будет выглядеть примерно так:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Настроив файл robots.txt на своем сайте, вы можете указать веб-краулерам Meta предпочтительный порядок взаимодействия с вашим сайтом. Чтобы заблокировать эти краулеры, добавьте для них директиву disallow в файл robots.txt. Краулер Meta-ExternalFetcher может обходить файл robots.txt, поскольку его работу инициирует пользователь. Кроме того, краулер FacebookExternalHit может обходить файл robots.txt при проверке безопасности или целостности.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Если исходный IP-адрес краулера находится в списке, который генерируется следующей командой, это краулер Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Учитывайте, что эти IP-адреса часто меняются. Подробнее см. на нашей веб-странице пиринга или в связанном скачиваемом файле (формат CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Если у вас есть вопросы или сомнения, напишите нам на адрес webmasters@meta.com (веб-мастера Meta).