Rastreadores web de Meta

Meta utiliza rastreadores web (software que recupera contenido de sitios web o aplicaciones web) para diferentes propósitos. En esta página se indican las cadenas de agente de usuario (UA) que identifican los rastreadores web más comunes de Meta, así como para qué se usa cada rastreador. En esta página también se proporcionan instrucciones para configurar el archivo robots.txt a fin de que nuestros rastreadores puedan interactuar correctamente con el sitio.

FacebookExternalHit

El propósito principal de FacebookExternalHit es rastrear el contenido de una aplicación o sitio web que se compartió en una de las familias de aplicaciones de Meta, como Facebook, Instagram o Messenger. Para compartir el enlace, es posible que se utilizarán las funciones de copiar y pegar o un plugin social de Facebook. Este rastreador recopila y muestra información sobre la aplicación o el sitio web, como su título, descripción e imagen de miniatura, y la almacena en caché.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

  • facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
  • facebookexternalhit/1.1
  • facebookcatalog/1.0

Ten en cuenta que es posible que el rastreador FacebookExternalHit omita robots.txt cuando realice comprobaciones de seguridad o integridad, como comprobaciones de malware o contenido malintencionado.

Requisitos del rastreador

  • El servidor debe usar las codificaciones gzip y deflate.
  • Las propiedades de Open Graph deben incluirse en la lista antes del primer MB de tu sitio web o aplicación, ya que, de lo contrario, se truncarán.
  • Asegúrate de que el rastreador pueda rastrear el contenido en pocos segundos, ya que, de lo contrario, Facebook no podrá mostrarlo.
  • Tu aplicación o sitio web debe generar o devolver una respuesta con todas las propiedades necesarias según los bytes especificados en el encabezado Range de la solicitud del rastreador o bien debe ignorar el encabezado Range por completo.
  • Añade a tu lista de autorizados las cadenas del agente de usuario o las direcciones IP (más seguras) que usa el rastreador.

Solución de problemas

Si el contenido de tu sitio web o aplicación no está disponible en el momento del rastreo, puedes forzar un rastreo una vez que esté disponible. Para ello, pasa la URL por el depurador de contenido compartido o usa la API de contenido compartido.

Puedes simular una solicitud del rastreador con el código siguiente:

curl -v --compressed -H "Range: bytes=0-524288" -H "Connection: close" -A "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)" "$URL"

Meta-ExternalAgent

El rastreador Meta-ExternalAgent rastrea la web para casos de uso como el entrenamiento de modelos de IA o la mejora de productos mediante el indexado directo de contenido.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

Este rastreador se implementará de forma gradual a lo largo de las próximas semanas y se espera que la implementación se complete antes del 31 de octubre de 2024.

Meta-ExternalFetcher

El rastreador Meta-ExternalFetcher lleva a cabo recuperaciones iniciadas por el usuario de enlaces individuales para asistir con funciones de producto específicas. Como esta recuperación la inicia el usuario, es posible que el rastreador omita las reglas de robots.txt.

La cadena de UA específica que verás en los archivos de registro será similar a una de las siguientes:

  • meta-externalfetcher/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalfetcher/1.1

Archivo robots.txt

Al configurar el archivo robots.txt en tu sitio web, puedes indicar a los rastreadores web de Meta cómo quieres que interactúen con tu sitio. Para bloquear un rastreador, añade una directiva “Disallow” para el rastreador correspondiente en robots.txt. Es posible que el rastreador Meta-ExternalFetcher omita robots.txt porque realiza recuperaciones solicitadas por el usuario. Además, es posible que el rastreador FacebookExternalHit omita robots.txt al realizar comprobaciones de seguridad o integridad.

User-agent: meta-externalagent
Allow: /                    # Allow everything
Disallow: /private/         # Disallow a specific directory

IP de los rastreadores

Si un rastreador tiene una dirección IP de origen incluida en la lista generada por el comando siguiente, quiere decir que el rastreador procede de Meta.

whois -h whois.radb.net -- '-i origin AS32934' | grep ^route  

Ten en cuenta que estas direcciones IP cambian con frecuencia. Para obtener más información, consulta nuestro sitio web sobre interconexiones o los datos descargables relacionados (formato CSV).

Ejemplo de respuesta

...
route:      69.63.176.0/21
route:      69.63.184.0/21
route:      66.220.144.0/20
route:      69.63.176.0/20
route6:     2620:0:1c00::/40
route6:     2a03:2880::/32
route6:     2a03:2880:fffe::/48
route6:     2a03:2880:ffff::/48
route6:     2620:0:1cff::/48
... 

Contacto

Si tienes cualquier pregunta, envíanos un correo electrónico a webmasters@meta.com (Meta Web Masters).