Rastreadores web de Meta

Meta utiliza rastreadores web (software que recupera contenido de sitios o apps web) con diferentes propósitos. En esta página, se enumeran las cadenas del agente de usuario (UA) que identifican los rastreadores web más comunes de Meta y para qué se usan esos rastreadores. Además, en esta página se proporciona orientación sobre cómo configurar el archivo robots.txt para que nuestros rastreadores interactúen correctamente con tu sitio.

FacebookExternalHit

El objetivo principal de FacebookExternalHit es rastrear el contenido de una app o sitio web que se compartió en una de las apps de la familia de Meta, como Facebook, Instagram o Messenger. El enlace se pudo haber compartido mediante las funciones de copiar y pegar o usando el plugin social de Facebook. Este rastreador recopila, almacena en caché y muestra información sobre la app o el sitio web, por ejemplo, el título, la descripción y la imagen en miniatura.

La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Ten en cuenta que el rastreador FacebookExternalHit puede saltarse el archivo robots.txt al realizar las comprobaciones de seguridad o integridad, como cuando comprueba la existencia de malware o contenido malicioso.

Requisitos del rastreador

  • El servidor debe usar codificaciones gzip y deflate.
  • Es necesario incluir en la lista todas las propiedades de Open Graph antes del primer MB del sitio web o app. De lo contrario, las propiedades se truncarán.
  • Asegúrate de que el rastreador pueda extraer el contenido en pocos segundos, o Facebook no podrá mostrarlo.
  • Tu sitio web o app debe generar y devolver una respuesta con todas las propiedades necesarias según los bytes que se especifican en el encabezado Range de la solicitud del rastreador, o ignorar el encabezado Range por completo.
  • Agrega a la lista de autorizados las cadenas de agente de usuario o las direcciones IP utilizadas por el rastreador (la segunda opción es más segura).

Solución de problemas

Si el contenido del sitio web o app no está disponible en el momento del rastreo, puedes forzar un rastreo cuando esté disponible, ya sea pasando la URL por el depurador de contenido compartido o utilizando la API de contenido compartido.

Puedes simular una solicitud del rastreador con el siguiente código:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

El rastreador Meta-ExternalAgent rastrea la web en busca de casos de uso, como entrenamiento de modelos de IA o mejora de productos, mediante la indexación directa de contenido.

La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Este rastreador se implementará de forma gradual durante las próximas semanas, y se espera que finalice el 31/10/2024.

Meta-ExternalFetcher

El rastreador Meta-ExternalFetcher realiza recuperaciones iniciadas por el usuario de enlaces individuales para permitir el uso de funciones específicas del producto. Debido a que un usuario inició la recuperación, es posible que este rastreador se salte las reglas del archivo robots.txt.

La cadena específica del UA que verás en tus archivos de registros será similar a una de las siguientes:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

El archivo robots.txt

Puedes configurar el archivo robots.txt en tu sitio web para indicar a los rastreadores web de Meta cómo prefieres que interactúen con tu sitio. Para bloquear estos rastreadores, agrega una anulación del rastreador relevante al archivo robots.txt. Es posible que el rastreador Meta-ExternalFetcher se salte el archivo robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, el rastreador FacebookExternalHit puede saltarse el archivo robots.txt cuando realiza comprobaciones de seguridad o integridad.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP de los rastreadores

Si un rastreador tiene una dirección IP de origen que está en la lista generada por el siguiente comando, se indica que el rastreador es de Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestra página web sobre peering o los datos descargables (en formato CSV) relacionados.

Ejemplo de respuesta

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Comunícate con nosotros

Si tienes preguntas o inquietudes, comunícate con nosotros escribiendo a webmasters@meta.com (Webmasters de Meta).