Meta utiliza rastreadores web (software que recupera contenido de sitios o apps web) con diferentes propósitos. En esta página, se enumeran las cadenas del agente de usuario (UA) que identifican los rastreadores web más comunes de Meta y para qué se usan esos rastreadores. Además, en esta página se proporciona orientación sobre cómo configurar el archivo robots.txt para que nuestros rastreadores interactúen correctamente con tu sitio.
El objetivo principal de FacebookExternalHit es rastrear el contenido de una app o sitio web que se compartió en una de las apps de la familia de Meta, como Facebook, Instagram o Messenger. El enlace se pudo haber compartido mediante las funciones de copiar y pegar o usando el plugin social de Facebook. Este rastreador recopila, almacena en caché y muestra información sobre la app o el sitio web, por ejemplo, el título, la descripción y la imagen en miniatura.
La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Ten en cuenta que el rastreador FacebookExternalHit puede saltarse el archivo robots.txt al realizar las comprobaciones de seguridad o integridad, como cuando comprueba la existencia de malware o contenido malicioso.
Range
de la solicitud del rastreador, o ignorar el encabezado Range
por completo.Si el contenido del sitio web o app no está disponible en el momento del rastreo, puedes forzar un rastreo cuando esté disponible, ya sea pasando la URL por el depurador de contenido compartido o utilizando la API de contenido compartido.
Puedes simular una solicitud del rastreador con el siguiente código:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
El rastreador Meta-ExternalAgent rastrea la web en busca de casos de uso, como entrenamiento de modelos de IA o mejora de productos, mediante la indexación directa de contenido.
La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Este rastreador se implementará de forma gradual durante las próximas semanas, y se espera que finalice el 31/10/2024.
El rastreador Meta-ExternalFetcher realiza recuperaciones iniciadas por el usuario de enlaces individuales para permitir el uso de funciones específicas del producto. Debido a que un usuario inició la recuperación, es posible que este rastreador se salte las reglas del archivo robots.txt.
La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Puedes configurar el archivo robots.txt en tu sitio web para indicar a los rastreadores web de Meta cómo prefieres que interactúen con tu sitio. Para bloquear estos rastreadores, agrega una anulación del rastreador relevante al archivo robots.txt. Es posible que el rastreador Meta-ExternalFetcher se salte el archivo robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, el rastreador FacebookExternalHit puede saltarse el archivo robots.txt cuando realiza comprobaciones de seguridad o integridad.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Si un rastreador tiene una dirección IP de origen que está en la lista generada por el siguiente comando, se indica que el rastreador es de Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestra página web sobre peering o los datos descargables (en formato CSV) relacionados.
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Si tienes preguntas o inquietudes, comunícate con nosotros escribiendo a webmasters@meta.com (Webmasters de Meta).