Meta utiliza rastreadores web (software que recupera contenido de sitios web o aplicaciones web) para diferentes propósitos. En esta página se indican las cadenas de agente de usuario (UA) que identifican los rastreadores web más comunes de Meta, así como para qué se usa cada rastreador. En esta página también se proporcionan instrucciones para configurar el archivo robots.txt a fin de que nuestros rastreadores puedan interactuar correctamente con el sitio.
El propósito principal de FacebookExternalHit es rastrear el contenido de una aplicación o sitio web que se compartió en una de las familias de aplicaciones de Meta, como Facebook, Instagram o Messenger. Para compartir el enlace, es posible que se utilizarán las funciones de copiar y pegar o un plugin social de Facebook. Este rastreador recopila y muestra información sobre la aplicación o el sitio web, como su título, descripción e imagen de miniatura, y la almacena en caché.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
facebookexternalhit/1.1
facebookcatalog/1.0
Ten en cuenta que es posible que el rastreador FacebookExternalHit omita robots.txt cuando realice comprobaciones de seguridad o integridad, como comprobaciones de malware o contenido malintencionado.
Range
de la solicitud del rastreador o bien debe ignorar el encabezado Range
por completo.Si el contenido de tu sitio web o aplicación no está disponible en el momento del rastreo, puedes forzar un rastreo una vez que esté disponible. Para ello, pasa la URL por el depurador de contenido compartido o usa la API de contenido compartido.
Puedes simular una solicitud del rastreador con el código siguiente:
curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"
El rastreador Meta-ExternalAgent rastrea la web para casos de uso como el entrenamiento de modelos de IA o la mejora de productos mediante el indexado directo de contenido.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Este rastreador se implementará de forma gradual a lo largo de las próximas semanas y se espera que la implementación se complete antes del 31 de octubre de 2024.
El rastreador Meta-ExternalFetcher lleva a cabo recuperaciones iniciadas por el usuario de enlaces individuales para asistir con funciones de producto específicas. Como esta recuperación la inicia el usuario, es posible que el rastreador omita las reglas de robots.txt.
La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:
meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalfetcher/1.1
Al configurar el archivo robots.txt en tu sitio web, puedes indicar a los rastreadores web de Meta cómo quieres que interactúen con tu sitio. Para bloquear un rastreador, añade una directiva “Disallow” para el rastreador correspondiente en robots.txt. Es posible que el rastreador Meta-ExternalFetcher omita robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, es posible que el rastreador FacebookExternalHit omita robots.txt al realizar comprobaciones de seguridad o integridad.
User-agent: meta-externalagent Allow: / # Allow everything Disallow: /private/ # Disallow a specific directory
Si un rastreador tiene una dirección IP de origen incluida en la lista generada por el comando siguiente, quiere decir que el rastreador procede de Meta.
whois -h whois.radb.net -- '-i origin AS32934' | grep ^route
Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestro sitio web sobre interconexiones o los datos descargables relacionados (formato CSV).
... route: 69.63.176.0/21 route: 69.63.184.0/21 route: 66.220.144.0/20 route: 69.63.176.0/20 route6: 2620:0:1c00::/40 route6: 2a03:2880::/32 route6: 2a03:2880:fffe::/48 route6: 2a03:2880:ffff::/48 route6: 2620:0:1cff::/48 ...
Si tienes cualquier pregunta, envíanos un correo electrónico a webmasters@meta.com (Meta Web Masters).